Elastic Search学习笔记

一、Elastic Search概述:

1.1 Elastic Search 简介

Elastic Search(ES)是一个基于Lucene构建的开源、分布式、RESTFul接口全文搜索引擎。ES还是一个分布式文档库,其中每个字段均是被索引的 数据且可被搜索,它能够扩展至数以百计的服务器存贮以及处理PB级的数据,它可以在短时间内存储、搜索和分析大量的数据。
Elastic Search的主要特点
1.横向可扩展性。增加一台机器,只需要添加集群配置,启动Elastic Search进行即可;
2.分片机制。一个索引可以分成多个Sharding,提高处理效率;
3.高可用性。每个分片可以设置多个备份,少量机器宕机不影响正常使用;

1.1 Lucene简介

Lucene是Apache软件基金会中的一个开源代码的全文搜索引擎工具包,方便实现全文检索的功能。 Lucene是倒叙排序索引,即由属性的值来确定记录的位置,而不是由记录来确定属性值。
举例(转自:《Elasticsearch技术解析与实战》):



clipboard.png

字典树采取trie树和DAT树,这部分待完善...

1.2 Lucene的核心结构:

Lucene将上面的三列分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件(positions)保存,其中词典文件保存了指向频率文件和文件位置的指针,通过指针可以找到该关键字的频率信息和位置信息。


Elastic Search 5版本的_socre评分.jpg

总结socre评分有如下四个原则:

1.搜索词出现次数越多,得分越高;
2.搜索词在整个索引中出现次数越少,得分越高;
3.搜索字段中所有词语数量越少,得分越高;
4.搜索词和中的某一条数据匹配字段越多,得分越高。

1.3 ES的的术语说明:

Elastic Search和mysql的对应关系

MySql Elastic Search
database index
table type
row document
cloumn field
schema mapping
index Everything is indexed
SQL query DSL
slect * from... get http://...
update talbe set... put http://...

二.集群内部结构

ES是主从模式设计

2.1 主节点(Master node)

主节点负责集群的相关操作,管理集群变更,且全局唯一,一般采用主节点和数据节点分离的部署架构。为防止数据丢失,每个主节点要知道哪些从节点有资格成为主节点的数量。

2.2 数据节点(Data node)

负责保存数据,执行数据相关的操作,一般情况下(特殊除外),数据读写只和数据节点交互,不会和主节点打交道。
当增加和删除节点时,即水平扩容,会触发rebalance操作。

clipboard.png

数据的路由:

shard = hash(routing) % primary_shard_count
routing默认值是document_id的

2.3 预处理节点(ingest node,5.0版本引入)

在索引写入数据之前,通过事先定义好的processors和pipeline,对数据进行转换、富化。processors和pipeline拦截bulk和index请求,在应用相关操作后,将文档传回给index或bulk API。

2.4 协调节点(Coordinating node)

协调节点将请求转发给Data node,每个Data node在本地执行请求,并返回给协调节点,协调节点将每个Data node的结果收集、合并甚至排序为单个全局结果,因此协调节点需要较多的CPU和内存资源。

数据写入过程:

ES写入操作.jpg

数据写入的consistency参数:

quorum(默认):
要求大部分的shard是活跃的,那么写入操作可执行。

quorum = int((primary_count+number_of_replica) /2 ) + 1

当quorum个数不够时,默认等待一分钟,如果一分钟内quorum个数仍然不够才不再执行。
one:
只要有一个primary shard是活跃的,那么写入操作可执行。
all:
当所有shard是活跃的(primary shard + replica shard),那么写入操作才可执行。

数据查询的timeout参数:

timeout机制,指定每个shard只能在timeout时间内(默认无timeout限制),将检索到的结果(可能只有一部分)返回给client,而不是等所有查询结果全部搜索出来再返回,避免搜索时间过长,影响用户体验。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容