Relevance

控制相关度

ES使用布尔模型(Boolean model)查找匹配文档,并用一个实用评分函数(practical scoring function)的公式来计算相关度。这个公式借鉴了词频/逆向文档频率(term frequency/inverse document frequency)和向量空间模型(vector space model),同时加入了一些现代的新特性,如协调因子(coordination factor),字段长度归一化(field length normalization),以及词或查询语句权重提升。
1、布尔模型
只是在查询中使用AND/OR/NOT这样的条件来插好匹配的文档

full AND text AND search AND (elasticsearch OR lucene)

会将所有包括词 full 、 text 和 search ,以及 elasticsearch 或 lucene 的文档作为结果集。
2、词频/逆向文档频率(TF/IDF)
词的权重由三个因素决定
--词频,词在文档中出现的“频度”越高,权重越高
如果不在意刺在某个字段中出现的频度,只在意是否出现过,可以禁用词频统计。(index_options设置为docs,not_analyzed的默认值就是这个)
--逆向文档频率,词在集合所用文档里出现的“频率”是多少,频次越高,权重越低。
--字段长度归一值,字段的长度是多少?字段越短,字段的权重越高。
("norms": { "enabled": false }禁用归一值,not_analyzed的默认值就是这个)
以上三个因素,是在索引时计算并存储的
3、向量空间模型
查询通常不止一个词,所以需要一种合并多词权重的方式,也就是向量空间模型
向量空间模型提供一种比较多词查询的方式,单个评分代表文档与查询的匹配程度,为了做到这点,这个模型将文档和查询都以向量的形式表示:
向量实际上就是包含多个数的一堆数组(每个数都代表一个词的权重),例如:

[1,2,5,22,3,8]

4、查询归一化
试图将查询“归一化”,这样就能将两个不同的查询结果相比较
5、查询协调
协调因子(coord),可以为那些查询词包含度高的文档提供奖励,文档里出现的查询词越多,越有机会成为好的匹配结果。
例如查询 quick brown fox

文档里有 fox → 评分: 1.5
文档里有 quick fox → 评分: 3.0
文档里有 quick brown fox → 评分: 4.5

协调因子将评分与文档里匹配词的数量相乘,然后除以查询所有词的数量。

文档里有 fox → 评分: 1.5 * 1 / 3 = 0.5
文档里有 quick fox → 评分: 3.0 * 2 / 3 = 2.0
文档里有 quick brown fox → 评分: 4.5 * 3 / 3 = 4.5

6、索引时字段层权重提升
……

查询时权重提升

boost参数,用来影响权重
当在多个索引中搜索时,可以使用indices_boost来提升整个索引的权重

使用查询结构修改相关度

越深的查询层级,对相关度的影响就越小

Not Quite Not

假如我们检索Apple,是想搜索苹果公司,就需要把一些例如水果的东西排查掉(must_not),但是排除掉这些词之后,可能丢失了与苹果公司相关的文档。
权重提升查询能解决这个问题(包含结果,但是降低排名)

GET /_search
{
  "query": {
    "boosting": {
      "positive": {
        "match": {
          "text": "apple"
        }
      },
      "negative": {
        "match": {
          "text": "pie tart fruit crumble tree"
        }
      },
      "negative_boost": 0.5
    }
  }
}

boosting查询接受positive和negative查询。只有匹配positive查询的文档罗列出来,还匹配negative查询的文档通过文档的原始_score月negative_boost相乘的方式降级

忽略TF/IDF

有时候我们不关心TF/IDF,只想知道一个词是否在某个字段出现过。
constant_score查询可以包含查询或过滤,为任意一个匹配的文档指定评分1,也可以使用boost提升权重,但是协调因子和查询归一化因子仍然会被考虑在内。
--
默认情况下not_analyzed字段会禁用字段长度归一值,并将index_options设为docs,禁用词频。但是每个词的倒排文档频率仍然会被考虑。同样可以使用constant_score来解决这个问题

function_score查询

允许为每个与主查询匹配的文档应用一个函数,以达到改变甚至完全替换原始查询评分_score的目的。
也能用过滤器对结果的子集应用不同的函数,这样既能高效评分,又能利用过滤器缓存
ES预定义函数:
weight:当weight为2时,最终结果为2*_score;
field_value_factor:使用这个值来修改_score
random_score:为每个用户都使用一个不同的随机评分对结果排序,但对某一具体用户来说,看到的顺序始终是一致的。
衰减函数:linear、exp、gauss
将浮动值结合到_score中,例如结合publist_date
如果需求超出以上范围时,用自定义脚本可以完全控制评分计算。(script_score)

按受欢迎度提升权重

function_score可以与field_value_factor结合使用,例如:

GET /blogposts/post/_search
{
  "query": {
    "function_score": { (1)
      "query": { (2)
        "multi_match": {
          "query":    "popularity",
          "fields": [ "title", "content" ]
        }
      },
      "field_value_factor": { (3)
        "field": "votes" (4)
      }
    }
  }
}

1、function_score查询将主查询和函数包括在内。
2、主查询优先执行
3、field_value_factor函数会被应用到每个与主查询匹配的文档
4、每个文档的votes字段都必须有值供function_score计算。如果没有值就必须指定missing
新的评分:new_score = _score * votes
然而_score通常处于0到10之间,有votes为10的会掩盖掉全文评分,为0的评分会被置0
一种更好的方式是使用modifier,例如:

GET /blogposts/post/_search
{
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query":    "popularity",
          "fields": [ "title", "content" ]
        }
      },
      "field_value_factor": {
        "field":    "votes",
        "modifier": "log1p" (1)
      }
    }
  }
}

此时新的评分:new_score = old_score * log(1 + number_of_votes)
modifier可以为:none (默认状态)、 log 、 log1p 、 log2p 、 ln 、 ln1p 、 ln2p 、 square 、 sqrt 以及 reciprocal
还可以使用factor参数
new_score = old_score * log(1 + factor * number_of_votes)
boost_mode可以控制函数与查询评分_score合并后的结果
接受的参数值:

multiply、sum、min、max、replace

参数max_boost可以限制一个函数的最大效果

GET /blogposts/post/_search
{
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query":    "popularity",
          "fields": [ "title", "content" ]
        }
      },
      "field_value_factor": {
        "field":    "votes",
        "modifier": "log1p",
        "factor":   0.1
      },
      "boost_mode": "sum",
      "max_boost":  1.5 (1)
    }
  }
}

无论field_value_factor 函数的结果如何,最大就是1.5

过滤集提升权重

过滤器可以将结果划分为多个子集(每个特性一个过滤器),可以为每个子集使用不同的函数。

GET /_search
{
  "query": {
    "function_score": {
      "filter": { (1)
        "term": { "city": "Barcelona" }
      },
      "functions": [ (2)
        {
          "filter": { "term": { "features": "wifi" }}, (3)
          "weight": 1
        },
        {
          "filter": { "term": { "features": "garden" }}, (3)
          "weight": 1
        },
        {
          "filter": { "term": { "features": "pool" }}, (3)
          "weight": 2 (4)
        }
      ],
      "score_mode": "sum", (5)
    }
  }
}

1、function_score查询有个filter过滤器而不是query查询
2、functions关键字存储着一个将被应用的函数列表
3、函数会被应用于和filter过滤器匹配的文档
4、pool比其他特性更重要,所以它有更高weight
5、score_mode指定各个函数的值进行组合运算的方式。

随机评分

相同_score的文档每次都会以相同次序出现,此时需要引入一些随机性(只针对_score为整数这样的情况)。
random_score函数会输出一个0到1之间的数,当种子seed值相同时,生成的随机结果是一致的。

GET /_search
{
  "query": {
    "function_score": {
      "filter": {
        "term": { "city": "Barcelona" }
      },
      "functions": [
        {
          "filter": { "term": { "features": "wifi" }},
          "weight": 1
        },
        {
          "filter": { "term": { "features": "garden" }},
          "weight": 1
        },
        {
          "filter": { "term": { "features": "pool" }},
          "weight": 2
        },
        {
          "random_score": { (1)
            "seed":  "the users session id" (2)
          }
        }
      ],
      "score_mode": "sum"
    }
  }
}

1、random_score没用任何过滤器filter,所以会被应用到所有文档
2、将用户的ID作为种子seed,会让该用户的随机始终保持一致。

越近越好

function_score衰减函数linear、exp、gauss(线性、指数和高斯函数),他们可以操作数值、时间以及经纬度地理坐标点这样的字段,能接受以下参数:
origin:中心点或字段可能的最佳值,与origin相同的文档_score为满分1.0
scale:衰减率,即一个文档从origin下落时,_score改变的速度
decay:从origin衰减到scale所得的评分_score,默认0.5
offset:以origin为中心点,为其设置一个非0的偏移量offset覆盖一个范围,而不只是单个原点。在范围内origin±offset内的所有_score都是1.0
样例:户希望租一个离伦敦市中心近( { "lat": 51.50, "lon": 0.12} )且每晚不超过 £100 英镑的度假屋

GET /_search
{
  "query": {
    "function_score": {
      "functions": [
        {
          "gauss": {
            "location": { (1)
              "origin": { "lat": 51.5, "lon": 0.12 },
              "offset": "2km",
              "scale":  "3km"
            }
          }
        },
        {
          "gauss": {
            "price": { (2)
              "origin": "50", (3)
              "offset": "50",
              "scale":  "20"
            }
          },
          "weight": 2 (4)
        }
      ]
    }
  }
}

脚本评分

function_score内置函数无法满足应用场景,可以使用script_score函数自行实现逻辑
ES5之后推荐脚本语言:painless

可插拔的相似度算法

较为高深……无法直视

更改相似度

……

调试相关度是最后10%要做的事情

……

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容