默认相关得分算法 TF-IDF
词频:所查找单词出现次数越多,得分越高
逆文档词频:如果查找词再所有文档中都比较少见,那么这个词的权重越高,得分也越高
逻辑理解
文档:用户搜索和索引的基本单位,可以理解为数据库的一行
类型:多个文档归于一个类型下,可以理解为数据库的表
索引:索引为更大的容器,一个或多个类型归为一个索引下,可以理解为数据库中的库
索引——类型——ID 可以唯一确定一条文档
物理理解
索引:每个索引被ES划分为分片,每个分片可以在不同的服务器上
深入逻辑理解
文档:通常是JSON表示,是无模式的,文档可以拥有不同的字段
类型:有时也被成为映射类型,如果类型不指定映射类型,文档中字段会被ES默认赋予类型。
深入物理理解
默认情况下一个索引有5个主分片,每个主分片都有一个副分片。分片也是ES将数据从一个节点迁移到另一个节点的最小单位。
索引新文档:当索引一篇新的文档时,ES更具文档ID选择散列的主分片,再把文档发送给该主分片所有的副分片
分片:一个分片是ES所处理的最小单元,一个分片是Lucene的一个索引,包含一个倒排索引的文件目录。
分片数量一个索引由一个或多个主分片,和零个或多个副分片组成,主分片要在创建索引时就决定好,副分片可以再创建之后随意加减 。
多个文档——一个索引——多个分片
一个分片——一个Lucene索引
倒排索引
-ES通过轮询机制选择可用分片,从各个分片上收集到结果聚集在一起回复。