全文检索基础

数据结构

数据结构分为：结构化数据和非结构化数据。

结果化数据拥有固定格式或有限长度的数据，比如关系型数据库；
非结构化数据不定长度，不定格式，比如word文档等。

也有些地方提出半结构化数据，比如XML、JSON、HTML等，这些可以根据需求按结构化数据来处理。也可以提取纯文本按照非结构化数据来处理。

数据搜索

针对不同的数据结构，对数据进行搜索也是不同的。

结构化数据搜索

对于结构化数据来说，由于数据有一定的结构可以采取一定的搜索算法来提升搜索速度，比如数据库数据可以通过sql来进行搜索。

非结构化数据搜索

而对于非结构化数据来说，一种可以通过顺序扫描；另一种就是想办法将非结构化的数据转换成结构化的数据，这就是索引。

将非结构化中数据的一部分提取出来，重新组织，使其变得有一定结构，然后对这些有一定结构的数据进行搜索，从而达到搜索相对较快的目的。这部分从非结构化数据中提取出来然后重新组织的信息，称之为索引。

这种先建索引，然后对索引进行搜索的过程叫做全文检索(full-text search)。

全文检索的过程

Paste_Image.png

全文检索大体分为两个过程：索引创建、索引搜索。

索引创建：将结构化或非结构化中的数据提取出来，创建索引索引的过程。
索引搜索：根据用户的查询请求，搜索创建的索引，然后返回结果的过程。

全文检索中三个重要的问题：

索引里面是什么？
如何创建索引？
如何对索引进行搜索？

索引里面是什么？

顺序扫描很慢的原因是因为要搜索的信息和非结构化的数据不一致造成的。正常情况下通过文件搜索字符串比较容易，即文件到字符串的映射。而我们要搜索的信息是字符串到文件，即要字符串到文件的映射。所以如果索引中能够存储字符串到文件的映射，则会大大提高搜索速度。这种存储从字符串到文件映射信息是文件到字符串的反向过程，所以这种索引称为倒排索引(反向索引)。

倒排索引中一般存储了一系列字符串，称之为词典。每个词都指向包含此此的文档链表，这个文档链表称之为倒排表。

全文检索，由于存在索引创建过程，所以不一定比顺序扫描快，尤其是小数据量情况下。但是索引只需建立一次，以后每次搜索都可以使用。全文检索相对于顺序扫描优势之一：一次索引，多次使用。

如何创建索引？

获取原文档(Document)
将原文档传递给分词组件(Tokenzine)
- 将文档分成一个个单独的单词
- 去除标点符号
- 去除停词(语言中最普通的一些词，没有特殊含义，一般情况不能作为搜索的关键词，索引创建索引时候被去掉，减少索引量)
对于每种语言分词器都有一个停词(Stop word)集合表。经过分词之后得到的结果称之为词元(Token)
将得到的词元传给语言处理组件(Languistic Processor)
语言处理组件将得到的词元做一些语言相关处理，比如大写变小些、将单词缩减为词根形式、将单词转变为词根形式。语言处理组件得到的结果称之为词(Term)
将词传递给索引组件(Indexer)
- 利用得到的词创建索一个词典，词典是每个词和词所在的文档id。
- 对词典按字母进行排序。
- 合并相同的词(Term)成为文档倒排链表(Posting List)。
文档倒排链表中有几个定义：
- Document Frequency(DF)：文档词频，表示总共有多少文件包含此词(Term)。
- Frequency：词频率，表示此文件中包含了几个词(Term)。

如何对索引进行搜索？

用户输入查询语句
查询语句也有一定的语法，查询语句的语法根据全文检索的实现而不同，最基本的比如AND、OR、NOT等
对查询语句进行词法分析、语法分析、语言处理
- 词法分析主要用来识别单词和关键字。
- 语法分析主要根据查询语句的语法规则来形成一棵语法树。
- 语言处理和创建索引一样：变小写、将单词缩减为词根、将单词转变为词根。
搜索索引，得到符合语法树的文档
根据得到的文档和查询语句的相关性，对结果进行排序。

找出词对文档重要性的过程称之为计算词的重要性(Term weight)过程。词的权重表示词(Term)对文档的重要程度，越重要的词权重越大，因而在计算文档相关性上面发挥更大的作用。判断词之间的关系从而得到文档相关性的过程应用一种叫做向量空间模型的算法(Vector Space Model)。

计算权重的过程

影响一个词在文档中的重要性，主要有两个因素：

Term Frequency(tf)：即该Term在文档中出现了多少次，tf越大说明越重要。
Document Frequency(df)：即多少文档包含了此Term，df越大说明越不重要。

Paste_Image.png

这只是典型的计算方式，不同的搜索引擎有不同的实现。

判断不同Term间的关系从而得到文档相关性的过程，也就是向量空间模型算法(VSM)

把文档看成一系列词，每个词都有一个权重，不同的词在文档中的权重来影响文档相关性打分计算。把文档中所有词的权重看作一个向量

    Document={term1,term2,…,termN}
    Document Vector={weight1,weight2,…,weightN}

同样把查询语句也看作一个文档，用向量表示

    Document={term1,term2,…,termN}
    Document Vector={weight1,weight2,…,weightN}

这样把所有的查询结果放到一个N维空间，然后通过计算夹角来为相关性打分，夹角越小，打分越高，相关性越大。

Paste_Image.png

最后编辑于：2021.08.24 16:41:27

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,907评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,987评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,298评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,586评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,633评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,488评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,275评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,176评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,619评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,819评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,932评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,655评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,265评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,871评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,994评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,095评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,884评论 2赞 354

全文检索基础

数据结构

数据搜索

结构化数据搜索

非结构化数据搜索

全文检索的过程

全文检索中三个重要的问题：

索引里面是什么？

如何创建索引？

如何对索引进行搜索？

计算权重的过程

判断不同Term间的关系从而得到文档相关性的过程，也就是向量空间模型算法(VSM)

推荐阅读更多精彩内容