ES的一些基本概念

ES是面向文档的，文档是所有数据可搜索数据的最小单位，类似数据表里面的一条记录。下面的例子都是文档。
- 日志文件的日志项
- 一篇PDF文档的具体内容
文档会被序列化为JSON格式，保存在ES里面。
- JSON对象由字段组成。
- 每个字段都有具体的类型，如字符串，数值，布尔，日期，范围类型。字段的类型，可以自己指定，也可以由ES自动推算出来。数据支持数组，支持嵌套。
每个文档都有一个唯一的id
- 可以自己指定
- 也可以由ES生成

用于标注文档的相关信息

ES的分布式架构

每个节点启动后，默认就是Master-eligible节点
- 可以设置node.master:false禁止
Master-eligible节点可以参选主流程，成为Master节点。
当第一个节点启动的时候，会将自己选举成为Master节点，只有Master节点才能修改集群状态信息
- 集群状态指的是维护一个集群必要的信息，比如所有节点的信息，所有的索引和其相关的mapping和settting设置，分配的路由信息。
这样的设定是为了避免信息导致数据的不一致性。

data node：保存数据，负责保存分配数据，对数据扩展起到非常强大的作用。
coordinating node：负责接收客户端请求，将请求分发到合适节点，最终汇总结果。每一个节点默认都起到 coordinating node这个作用。

节点类型	配置参数	默认值
master eligible	node.master	true
data	node.data	true
ingest	node.ingest	true
coordinating only	无	默认是开启，需要仅仅启动，把其他的全部设置为false
machine learning	node.ml	true （enable x-pack）

主分片（Primary Shard）解决数据水平扩展的问题，通过主分片，将数据分布到集群内的所有节点上面。
- 一个分片是一个运行的Lucene的实例
- 主分片数在索引创建的时候指定，以后不可以改，除非重新索引。
副本分片（Replica Shard），解决数据的高可用问题，是主分片的拷贝。
- 副本分配数，可以动态的调整。
- 增加副本数，可以提高读取的吞吐量，提高服务可用性。

生产环境提前做好容量规划

分片数设置过小
- 后续无法增加节点实现水平扩展
- 单个分片数据量过大，数据重新分配耗时。
分片数设置过大，（7.0默认主分片设置为1，解决了over-shading问题）
- 影响搜索结果的相关性打分，影响统计结果的准确性。
- 单个节点上过多的分配，导致资源浪费，影响性能。

GET _cluster/health

settting.png