全文检索技术--理论篇

全文检索技术

什么是全文检索技术?

数据分类,一共分为两种:结构化数据非结构化数据
通俗上讲,做开发的同学应该对结构化的数据已经非常的了解。比如说我们的一些关系型数据库中的数据(Oracle PG MySql..)也就是指固定格式或者是有限长度的数据。
非结构化数据,其实我们也是很常见,比如说 *.txt *.docx Email 之类的,这些数据通常是不定长或者是没有固定的格式。
当然也会有小伙伴会说,还有第三种数据格式,*.xml *.html 这些也是我们的同学再开发中比较常见的几种文件类型。暂且可以称为半结构化数据。

结构化数据的搜索方式

常见的结构化数据也就是数据库中的数据。在数据库中搜索很容易实现,通常都是使用sql语句进行查询,而且能很快的得到查询结果。
为什么数据库搜索很容易?
因为数据库中的数据存储是有规律的,有行有列而且数据格式、数据长度都是固定的。

非结构化数据的查询方法

1.顺序扫描法(Serial Scanning)

所谓顺序扫描,比如要找内容包含某一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容,只是相当的慢。

2.全文检索(Full-text Search)

将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。
例如:字典。字典的拼音表和部首检字表就相当于字典的索引,对每一个字的解释是非结构化的,如果字典没有音节表和部首检字表,在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理,比如读音,就比较结构化,分声母和韵母,分别只有几种可以一一列举,于是将读音拿出来按一定的顺序排列,每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音,然后按其指向的页数,便可找到我们的非结构化数据——也即对字的解释。
这种先建立索引,再对索引进行搜索的过程就叫全文检索(Full-text Search)。

虽然创建索引的过程也是非常耗时的,但是索引一旦创建就可以多次使用,全文检索主要处理的是查询,所以耗时间创建索引是值得的。

全文检索过程图解
全文检索过程图解

通过上图的流程,我们可以看出全文检索技术分为两个流程
索引流程:采集数据>>>文档数据处理>>>储存到索引库中
搜索流程:查询条件>>>查询器查询索引>>>从索引库库中取出>>>视图渲染

全文检索技术应用的场景

狗东

当然这只是举个例子 ,还有很多,比如说专业做搜索引擎的Google Baidu ,还有一些提供站内数据搜索的网站等。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,032评论 2 89
  • 这是我贵都教室崭新的样子。 暑期班结束后,我邀请曾为苏州学而思打造空间的专业团队给我的贵都教室进行了重新布置。 但...
    自证预言的Sam阅读 249评论 0 2
  • 姓名:刘小琼 公司:宁波大发化纤有限公司 宁波盛和塾《六项精进》第235期学员 【日精进打卡第57天】 知~学习 ...
    刘小琼123阅读 182评论 0 0
  • 嗨,好久不见呀。 还有一个月你就要18岁了。要给你准备什么好呢,毕竟没有什么比你在生日时收到我的祝福更让我开心的事...
    牛奶曲奇巧克力阅读 337评论 2 8
  • 为了梦想努力工作 加油 开拓思维 奋发向上
    帅气昵称不好找阅读 299评论 0 0