Elasticsearch 简介和实战

最近项目要用到全文搜索,需要有中文、拼音检索以及混合搜索以及数据聚合功能,使用到了 Elsaticsearch

关于 Elasticsearch

Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,Elasticsearch 是用 Java 语言开发的,基于 RESTful web 接口,其客户端在其他语言中都是可用的

Lucene 被认为是目前最先进,性能最好、功能最全的搜索引擎库,不过,Lucene 只是一个库,需要使用 java 集成到应用中,而且 Lucene 是非常复杂的,需要深入了解检索的相关知识来理解它的工作原理。一般我们会选择 Solr 和 Elasticsearch 来做搜索服务,两者的对比可以网上自行了解

Elasticsearch 基于 Lucene,提供一套简单一致的 RESTful API,隐藏 Lucene 的复杂性,使得全文检索变得更简单,不过 Elasticsearch 也不仅仅只是全文搜索引擎

  • 一个分布式的实时文档存储,每个字段 可以被索引与搜索
  • 一个分布式实时分析搜索引擎
  • 能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据

摘自 Elasticsearch: 权威指南

回忆时光

许多年前,一个刚结婚的名叫 Shay Banon 的失业开发者,跟着他的妻子去了伦敦,他的妻子在那里学习厨师。 在寻找一个赚钱的工作的时候,为了给他的妻子做一个食谱搜索引擎,他开始使用 Lucene 的一个早期版本。

直接使用 Lucene 是很难的,因此 Shay 开始做一个抽象层,Java 开发者使用它可以很简单的给他们的程序添加搜索功能。 他发布了他的第一个开源项目 Compass。

后来 Shay 获得了一份工作,主要是高性能,分布式环境下的内存数据网格。这个对于高性能,实时,分布式搜索引擎的需求尤为突出, 他决定重写 Compass,把它变为一个独立的服务并取名 Elasticsearch。

第一个公开版本在2010年2月发布,从此以后,Elasticsearch 已经成为了 Github 上最活跃的项目之一,他拥有超过300名 contributors(目前736名 contributors )。 一家公司已经开始围绕 Elasticsearch 提供商业服务,并开发新的特性,但是,Elasticsearch 将永远开源并对所有人可用。

据说,Shay 的妻子还在等着她的食谱搜索引擎…

Elasticsearch 安装

从官网 elastic.co下载最新或合适版本的 Elasticsearch(这里是7.6.2)

解压之后进入目录下

修改配置文件config/elasticsearch.yml

vim config/elasticsearch.yml
# 集群名称,建议修改,防止误用默认集群
cluster.name: es-zou

# 配置绑定地址,配置外网可以访问(或本地地址)
network.host: 0.0.0.0

# 配置访问端口
http.port: 9200

运行命令

bin/elasticsearch

# 后台启动
bin/elasticsearch -d 

运行 curl http://localhost:9200/ 可以看到以下信息,启动成功

{
  "name" : "DESKTOP-G11TC44",
  "cluster_name" : "es-zou",
  "cluster_uuid" : "yoq-PT-sTVml0H0Vrna6xQ",
  "version" : {
    "number" : "7.6.2",
    "build_flavor" : "default",
    "build_type" : "zip",
    "build_hash" : "ef48eb35cf30adf4db14086e8aabd07ef6fb113f",
    "build_date" : "2020-03-26T06:34:37.794943Z",
    "build_snapshot" : false,
    "lucene_version" : "8.4.0",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0-beta1"
  },
  "tagline" : "You Know, for Search"
}

在 Linux 下,network.host 设置为 0.0.0.0 启动可能遇见的问题

[1]: max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]

切换到root用户,修改配置文件 /etc/security/limits.conf,增加配置

vi /etc/security/limits.conf

* soft nofile 65536
* hard nofile 65536

[2]: max number of threads [3818] for user [es] is too low, increase to at least [4096]

最大线程个数太低。修改配置文件 etc/security/limits.conf,增加配置

vi /etc/security/limits.conf

* soft nproc 4096
* hard nproc 4096

[3]: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]

修改 /etc/sysctl.conf,增加配置

vi /etc/sysctl.conf

vm.max_map_count=262144

执行命令 sysctl -p 生效

[4]: system call filters failed to install; check the logs and fix your configuration or disable system call filters at your own risk

问题原因:因为 Centos6 不支持 SecComp,而ES5.2.1默认 bootstrap.system_call_filter 为 true 进行检测,所以导致检测失败,失败后直接导致ES不能启动
解决方法:在 elasticsearch.yml 中配置 bootstrap.system_call_filter 为 false,注意要在 Memory下面:

bootstrap.memory_lock: false
bootstrap.system_call_filter: false

Kibana 安装

Kibana 是官方的数据可视化工具,不过我们暂时用不到那些数据分析的功能,其中有个 Dev Tools 开发工具可以比较方便的与 Elasticsearch 服务进行交互

下载对应 Elasticsearch 版本的 Kibana 并解压(与 Elasticsearch 保持一致,这里都是 7.6.2)

编辑配置文件 config/kibana.yml

vim config/kibana.yml
# 服务地址,对外暴露地址,(服务器地址)
#server.host: "localhost"
server.host: "127.0.0.1"

# 配置 elasticsearch 地址
elasticsearch.hosts: ["http://localhost:9200"]

# 中文支持
i18n.locale: "zh-CN"

启动命令

bin/kibana

# 使用nohup命令 后台启动
nohup bin/kibana >/dev/null &

启动后,浏览器输入地址 http://localhost:5601

image

可以使用开发工具 Dev Tools 与 Elasticsearch 服务进行交互

基本概念

操作之前,先简单了解一波 Elasticsearch 中的数据模型和一些基本概念

全文搜索(full-text search)

全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文搜索搜索引擎数据库中的数据

集群、节点(cluster & node)

一个节点(node)就是一个 Elasticsearch 实例,而一个集群(cluster)由一个或多个节点组成,它们具有相同的 cluster.name (默认为 “elasticsearch”),节点可以通过这个集群名加入群集,可以在 elasticsearch.yml 自定义集群名称和节点名称

# Use a descriptive name for your cluster:
cluster.name: my-application

# Use a descriptive name for the node:
node.name: node-1

索引(index)

index 包含两层意思,一是名词索引,类似于关系型数据库中的一个数据库,是一个存储关系型文档的地方;二是动词,表示建立索引,存储一个文档到索引中以被检索查询

一个 Elasticsearch 集群可以包含多个 索引 ,相应的每个索引可以包含多个 类型 ,这些不同的类型存储着多个 文档 ,每个文档又有多个 属性 。我们可以与关系型数据库做个简单对比

Relational DB -> Databases -> Tables -> Rows      -> Columns
Elasticsearch -> Indices   -> Types  -> Documents -> Fields

类型(mapping type)

之前的版本中,每个索引下可以建立多个类型,存储文档的时候需要指定 index 和 type,但是从 6.0 开始每个索引只能有一个类型,7.0 以后不建议使用,8.0 以后将完全不支持

为什么要移除映射类型

开始的时候,我们把索引(index)类型(type)类比于SQL数据库中的 database 和 table,但是这样类比是不合适的。在SQL数据库中,表之间是相互独立的。一个表中的各列并不会影响到其它表中的同名的列。而在映射类型(mapping type)中却不是这样的。

在同一个 Elasticsearch 索引中,其中不同映射类型中的同名字段在内部是由同一个 Lucene 字段来支持的。换句话说,使用上面的例子,user 类型中的 user_name 字段与 tweet 类型中的 user_name 字段是完全一样的,并且两个 user_name 字段在两个类型中必须具有相同的映射(定义)。

这会在某些情况下导致一些混乱,比如,在同一个索引中,当你想在其中的一个类型中将 deleted 字段作为 date 类型,而在另一个类型中将其作为 boolean 字段。

在此之上需要考虑一点,如果同一个索引中存储的各个实体如果只有很少或者根本没有同样的字段,这种情况会导致稀疏数据,并且会影响到Lucene的高效压缩数据的能力

文档(document)

索引里存储的单条数据,被索引信息的基本单位

Elasticsearch 是面向文档(document oriented)的,这意味着它可以存储整个对象或文档(document),还会索引(index)每个文档的内容使之可以被搜索。在 Elasticsearch 中,你可以对文档(而非成行成列的数据)进行索引、搜索、排序、过滤。这种理解数据的方式与以往完全不同,这也是Elasticsearch能够执行复杂的全文搜索的原因之一

映射、字段(mapping & field)

Elasticsearch 是使用 JSON 作为文档序列化格式,映射就定义了文档的结构,会包含许多字段。一个映射定义了字段类型,每个字段的数据类型,以及字段被 Elasticsearch 处理的方式。映射还用于设置关联到类型上的元数据

快速入门

使用 RESTful API 通过端口 9200 可以和 Elasticsearch 进行交互,可以使用 curl 命令,也可以用 Kibana 的 Dev Tools 更加方便

这里简单创建一个索引,并添加几条数据

创建索引

用 curl 命令创建了一个 commodity 商品索引

curl -X PUT "localhost:9200/commodity?pretty"

也使用 Kibana,并配置参数和映射

PUT /commodity
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 1
  },
  "mappings": {
    "properties": {
      "commodity_id": {
        "type": "long"
      },
      "commodity_name": {
        "type": "text"
      },
      "picture_url": {
        "type": "keyword"
      },
      "price": {
        "type": "double"
      }
    }
  }
}

创建了一个分片数为1,副本数为1的索引,没有指定类型,默认会创建一个 _doc 类型,有四个不同类型的字段,创建成功返回如下结果

{
  "acknowledged" : true,
  "shards_acknowledged" : true,
  "index" : "commodity"
}

添加文档数据

PUT /commodity/_doc/1
{
  "commodity_id": 1,
  "commodity_name": "全面屏手机",
  "picture_url": "/commodity/1",
  "price": 1999
}

这里是在 commodity 索引的 _doc 类型下创建一个 id 为 1 的文档数据,创建成功

{
  "_index" : "commodity",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 2,
  "result" : "updated",
  "_shards" : {
    "total" : 2,
    "successful" : 1,
    "failed" : 0
  },
  "_seq_no" : 1,
  "_primary_term" : 1
}

查询

查询所有

POST /commodity/_search

查询名称

POST /commodity/_search
{
  "query": {
    "match": {
      "commodity_name": "全面"
    }
  }
}
{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 0.9646722,
    "hits" : [
      {
        "_index" : "commodity",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.9646722,
        "_source" : {
          "commodity_id" : 1,
          "commodity_name" : "全面屏手机",
          "picture_url" : "/commodity/1",
          "price" : 1999
        }
      }
    ]
  }
}

后面再去总结 API 的详细用法

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容