Elasticsearch——Search API

search API

实现对es中存储的数据进行查询分析，endpoint为_search，如下所示：

查询主要有两种形式：

term与phrase
- alfred way等效于alfred OR way
- "alfred way"词语查询，要求先后顺序
泛查询：
- alfred 等效于在所有字段去匹配该term
指定字段
- name:alfred
Group分组设定，使用括号指定匹配的规则
- （quick OR brown) AND fox
- status:(active OR pending) title:(full text search)
布尔操作符
- AND(&&)、OR(||)、NOT(!)
  - name:(tom NOT lee)
  - 注意大写，不能小写
- - - 分别对应must和must_not
    - name:(tom + lee - alfred)
    - name:((lee && !alfred) || (tom && lee && !alfred))
    - - 在url中会被解析为空格，要使用encode后的结果才可以，为%2B
范围查询
- 区间写法，闭区间用[]，开区间用{}
  - age:[1 TO 10] 意为 1<= age <= 10
  - age:[1 TO 10} 意为 1<= age < 10
  - age:[1 TO ] 意为 age >= 1
  - age:[* TO 10] 意为 age <= 10
- 算数符号写法
  - age:>=1
  - age:(>= 1 && <= 10)或者age:(+>= 1 +<= 10)
通配符查询
- ?代表一个字符，*代表0或者多个字符
  - name:t?m
  - name:tom*
  - name:t*m
- 通配符匹配执行效率低，且占用较多内存，不建议使用
- 如无特殊需求，不要将?/*放在最前面
正则表达式匹配
- name:/[mb]oat/
模糊匹配 fuzzy query
- name:roam~1
- 匹配与roam差1个character的词，比如foam roams等
近似度查询 proximity search
- "fox quick"~5
- 以term为单位进行差异比较，比如"quick fox" "quick brown fox" 都会被匹配

将查询语句通过http request body发送到es，主要包含如下参数：

它基于JSON定义的查询语言，主要包含如下两种类型：

字段类查询
字段类查询主要包含以下两类：

match Query
对字段做全文检索，最基本和常用的查询类型，API示例如下：

相关性算分

相关性算分是指文档与查询语句间的相关度，英文为relevance
- 通过倒排索引可以获取与查询语句相匹配的文档列表，那么如何将最符合用户查询需求的文档放到前列呢？
- 本质是一个排序问题，排序的依据是相关性算分
相关性算分的几个重要概念如下：
- Term Frequency(TF)词频，即单词在该文档中出现额次数，词频越高，相关度越高
- Document Frequency(DF)文档频率，即单词出现的文档数
- Inverse Document Frequency(IDF)逆向文档频率，与文档频率相反，简单理解为1/DF。即单词出现的文档数越少，相关度越高
- Field-length Norm 文档越短，相关性越高