Elasticsearch 入门

一、基本单位

ElasticSearch（下文简称ES）是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎。我们想要使用它，得了解一些它的基本概念。

Document：ES存储内容的基本单位，相当于一条数据（在项目中，它可以是一条订单数据、一条JSON数据等等）。一条条的Document构成了整个的Index。
Field：是Document的数据字段，如果Document是一条学生信息，那么name、age、sex都是它的Field。
Index：即索引，索引包含一堆有相似结构的文档数据。一般来讲，我们将数据类似一样或者相近的数据才包装为一个Index。(这个必须小写，也别用下划线开头)
Type：对Document的分类，在一个Index中，会根据一些特性的不同，建立不同的Type去进行逻辑数据分类。6.X以后的版本只允许有一个Type，这个需要注意。
shard：单台机器无法存储大量数据，es可以将一个索引中的数据切分为多个shard，分布在多台服务器上存储。有了shard就可以横向扩展，存储更多数据，让搜索和分析等操作分布到多台服务器上去执行，提升吞吐量和性能。每个shard都是一个lucene index。同时为了保证ES的高可用性，会将shard分为primary shard和replica shard。这个概念类似redis的master和slave节点的主从备份。同时replica shard也可以作为查询服务器，提高集群的吞吐量。（指向相同内容的replica shard 和 primary shard不可能出现在同一个集群节点上，同一个数据内容也不可能同时出现在两个primary shard上）

对比Mysql数据库的内容，可以将Index看做是一个数据库db，那么Type就类似于table的角色，而Document就相当于一条完整的数据，Field就是Document的字段。

二、安装

https://www.elastic.co/cn/downloads/
下载Elasticsearch 和 Kibana 并解压执行（基于java，先安装好JDK）
输入localhost:9200/?pretty 查看Elasticsearch的简讯，其中cluster_name是集群名称，如果我们没有在conf的配置文件设置，那么就是默认的elasticsearch。其他的还有一些版本信息和Lucene版本信息

Elasticsearch

输入localhost:5601 即可进入Kibana管理界面，作为我们的可视化管理工具

Kibana

三、Restful 风格的CRUD

我先定义一个Student的对象作为Document单元，且利用性别作为分类的Type，例如

{
  "name":"zengg",
  "age":26,
  "company":"travelsky",
  "power":"m"
}

1、插入数据，语法是`PUT index/type/id`

如果索引本来就不存在，Elasticsearch会自动为我们创建该索引，当然也可以直接使用 PUT index 直接创建索引。

2、简单查询，语法是`GET index/type/id`

3、修改数据，语法是`POST index/type/1`

这种语法会覆盖掉该id代表的Document的内容，如下我只填了一个曾彦祖，再get一下。

那如果我只想改其中的某一个字段，语法POST index/type/id/_update 且在数据中外层包裹doc标签，如下

4、删除数据，语法是`DELETE index/type/id`

四、集群信息查看

es提供了一套叫做cat的API，可以查看es中各种各样的数据。

1、索引状态

首先，查看所有的索引列表，语法是GET /_cat/indices?v
可以看出，目前四个索引，为了防止待会儿集群查看的干扰，我只会留一个person的Index来进行测试(.kibana是自动生成的)。此时单Node节点中它的primary有一个，replica也有一个被创建，继续看

2、集群状态

接下来查看集群信息，命令语法 GET /_cat/health?v

该图中有个非常重要的属性status，status代表了集群的状态。它有三种值，green代表了所有的集群shard(包括primary和replica)都是可用的。最后的active_shards_percent就是100%。如果是yellow，代表部分replica不可用，这个时候集群虽然可用，但是可能因为一些情况primary shard挂掉的话，集群不再可用。如果是red的话，就代表不是所有的primary shard都可用，集群现在不可用。

此时的状态是yellow是因为之前说过，primary shard和replica shard不可能出现在同一个Node上。而50%的结果即是因为我们的person的索引应该有两个shard，一个primary和一个replica，但是现在因为没有replica的关系导致活跃率只有50%。

3、添加Node节点

我现在再解压一份Elasticsearch，并启动作为一个集群的Node节点，那么此时就有两个可用的Node了，然后再次查看集群信息

直接启动，端口是9201

因为没有修改配置的关系，他们的cluster_name一致，那么就会自动注入同一个集群，这个时候再次查看集群信息，可以看到status变成了green了，而且最后一个active_shards_percent的值达到了100%，那么就表示所有的replica shard 和primary shard都是正在执行的。

4、配置shard

仅说明一点，number_of_replicas的数量代表每个primary shard的有几个replica shard，如果primary shard的数量是3，number_of_replicas的值是2，那么就总共有9个shard可供使用。

PUT index_name
{
   "settings" : {
      "number_of_shards" : 3,
      "number_of_replicas" : 1
   }
}

shard的数量和Node的数量息息相关，合理的数量分配可以允许我们在突发情况下接受几台机器（Node）down掉。比如说primary shard是3（P10、P20、P30），每个primary shard有两个replica shard（P11、P12、P21、P22、P31、P32），而Node节点有三个。那么这个时候因为每个Node节点都至少会分配一个P1* 、P2* 和P3* ，那么就允许我们down掉两个节点。

5、集群容错机制

a) 集群有一个Node是作为逻辑意义上的master的，如果这台挂了，会短时间使集群不可用，因为不是所有的primary shard都是active状态。
b) 这个时候，集群会重新选举出新的master 的Node
c) 并在不可用的primary shard挂掉以后，会从它的replica shard里面自动选出一个作为新的primary shard提供服务。此时集群的status的状态会变成yellow。
d) 最后重启故障Node之后，新的master会将它挂掉期间的数据同步过去（primary shard执行）

五、自定义查询

先展示一下所有的数据，执行命令GET index/type/_search

目前分别插入了三个人的信息，分别是吴彦祖、彭于晏和本人，没毛病我们继续。

{
  "took" : 304,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 3,
      "relation" : "eq"
    },
    "max_score" : 1.0,
    "hits" : [
      {
        "_index" : "person",
        "_type" : "man",
        "_id" : "2",
        "_score" : 1.0,
        "_source" : {
          "name" : "wuyanzu people",
          "age" : 45,
          "company" : "JC Group",
          "power" : "h"
        }
      },
      {
        "_index" : "person",
        "_type" : "man",
        "_id" : "1",
        "_score" : 1.0,
        "_source" : {
          "name" : "zengguangfu people handsome",
          "age" : 26,
          "company" : "travelsky",
          "power" : "m"
        }
      },
      {
        "_index" : "person",
        "_type" : "man",
        "_id" : "3",
        "_score" : 1.0,
        "_source" : {
          "name" : "pengyuyan people",
          "age" : 37,
          "company" : "star shinning",
          "power" : "h"
        }
      }
    ]
  }
}

1、query string search

这种做法是将参数直接放在链接后面，通常不被使用，一般是想快速执行例如curl的命令直接执行采用的
例如GET person/man/_search?q=name:zengguangfu查询name Field里面包含了参数内容的数据

2、query DSL

DSL是专门为Elasticsearch搜索提供的特殊的语言格式，我们可以利用它在body中传入复杂的查询和数据处理条件，以实现我们各种需求。

A) 查询所有person这个Index下的内容

GET person/man/_search
{
  "query":{
    "match_all":{}  
  }
}

B) 查询名字中包含zenguangfu的选手

GET person/man/_search
{
  "query":{
    "match": {
      "name":"zengguangfu"
    }
  }
}

C) 查询所有选手，并按照年龄升序排序

GET person/man/_search
{
  "query":{
    "match_all":{ }
  },
  "sort":{
    "age":"asc"
  }
}

D) 分页查询，查询pagenumber = 2 ,pagesize = 1。此时的结果应该是范围zengguangfu这个选手

GET person/man/_search
{
  "query":{
    "match_all":{ }
  },
  "from":1,
  "size":1
}

E) 查询出来只显示name和age即可，别的不展示

GET person/man/_search
{
  "query":{
    "match_all": {}
  },
  "_source":[
    "name","age"  
  ]  
}

3、query filter

query相关的语法是匹配文章、内容相似度的，得分越高、越靠前返回。
filter更侧重于非评分、非相关度的精确查询。即是搜索之后的结果中，过滤掉一些内容。
还是举例，查询全部人员，过滤出年龄大于40岁的。

GET person/man/_search
{
  "query":{
    "bool": {
      "should": {
        "match_all":{}
      },
      "filter": {
        "range": {
          "age": {
            "gt": 40
          }
        }
      }
    }
  }
}

查询name中必须包含handsome的，毋庸置疑，Document里面应该只有一个符合条件。

4、full-text search 全文检索

即在查询条件有多个关键字的情况下，会匹配所有包含了该关键字的Document并返回。我们还是以name作为查询的Field数据字段。

id name
1 zengguangfu people handsome
2 wuyanzu people
3 pengyuuyan people
可以看到这三个Document中，“people”都有，handsome只有id为1的数据有，前面的名字则各不一样。

先按照关键字“ wuyanzu people”进行查询。从结果可以看到三条数据都查询到了，但是每条数据的_score不一样，这是因为后面两个其实只匹配了一个people而已，其他的分的词有很多，但是没有匹配上，因此分数低。

同样的换一种方式，查询 “handsome people”。可以看到分数又有了变化

5、phrase search（短语搜索）

与全文检索相对应，短语搜索要求把所有的关键字看做是一个分词，必须包含完全匹配的短语才能被查询到。示例如下：

GET person/man/_search
{
  "query":{
    "match_phrase": {
      "name": "people handsome"
    }
  }
}

6、高亮搜索

简明扼要就是将某个重要的Field高亮展示。参数中，match的Field和要高亮的Field要一致。同时高亮搜索不支持多个条件的查询，即match下面只能有一个被查询的Field字段

GET person/man/_search
{
  "query":{
    "match": {
      "name": "people handsome"
    }
  },
  "highlight":{
    "fields": {
      "name":{}
    }
  }
}

最后编辑于：2020.01.20 14:09:35

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,692评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,482评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,995评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,223评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,245评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,208评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,091评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,929评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,346评论 1赞 311
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,570评论 2赞 333
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,739评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,437评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,037评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,677评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,833评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,760评论 2赞 369
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,647评论 2赞 354