现在回过头来重新回顾一下自己看过的这本入门级的搜索引擎书籍,里面涉及到的很多第一人称的表述都是当时的角度写的,不要介意。这几天第一遍看了梁斌老师的《走进搜索引擎》这本书,这本书写的很基础,语言方面也是很好懂的,书中的内容也不是很难理解,都是白话文一样的类型。对于没有基础的人来说不得不说是一本很好的入门书籍。这本书到现在为止看过好几遍了。全文共7章,第一章介绍了搜索引擎的基本背景知识,通过介绍搜索引擎的历史回顾了搜索引擎的发展历程。现在外面正在打雷,可以记录下在大学里的美好的一天,第二章讲述了搜索引擎,以及搜索引擎的主要系统划分以及架构方面的知识点。通熟易懂。语言简洁明了,搜索引擎是由哪些部分构成的,每个部分是什么作用,在搜索引擎中发挥着什么功能等等。第三章介绍了搜索引擎的下载系统的背景知识、设计原理和技巧,以及网页库的设计等等。第四章分别介绍了信息抽取、网页查重、中文分词,以及PageRank等分析系统子模块的计算原理和实现细节。第五章介绍了全文检索、文档编号、正排表和倒排表等基本概念,全方位介绍了搜索引擎核心的索引技术。第六章介绍了查询系统的两个主要功能模块。第七章通过回答搜索引擎的常见问题系统的介绍了搜索引擎各个系统的相互关系,并展望了搜索引擎未来的发展,对于这本书的一个总结或是写完这本书对我们读者有的一些建议。
下面根据每个章节的内容详细总结一下自己对这本书上知识的认识。经过将近一个多月的学习,上网也是查询了搜索引擎或是信息检索方面的很多资料,从而对于这个方面的了解也是增加了许多,其中包括看一些论文和一些书籍,对搜索引擎的基本原理有所了解,搜索引擎是信息检索的典型应用,可以说信息检索是一个领域,搜索引擎也是很大的方向,里面涉及到的知识或是方向太多了。前期看的大部分信息检索的书籍上面介绍的很不错。这本梁斌的书可以说是我的入门书,主要是书中的语言简洁,通熟易懂,毕竟当时我看导师推荐给我的那本书时太难了,很多涉及到的很多细节都是不太了解。现在正在从刘挺的那本搜索引擎实践书籍中寻找自己的想法,毕竟时间过得很快,马上就要开题了,接一下面临的就是毕业设计和小论文的发表。到现在为止还是没有想法,没办法,整天的看论文也是有着目的性的寻找自己感兴趣的方法或是知识点。下面具体阐述一下,第一章介绍了我们公认的三种搜索引擎的服务方式:目录式搜索引擎、全文搜索引擎、元搜索引擎。关于目录式搜索引擎,我的理解是人工干预的比较多,花费的代价也比较大,早期的有雅虎网站采用的是目录式搜索引擎,当然这样也有优点,查询起来比较快,查准率比较高,毕竟网站上已经帮你分类好了,用户想查找什么类型的资料,可以通过网站上的导航搜索自己想要的信息,难点是人工更新相当的慢。关于全文搜索引擎,典型的是google、百度等大型的搜索引擎,google的pagerank和百度的超链分析法都是基于全文搜索的,这样的搜索信息量比较大,更新也比较及时,不需要人工的干预,当然也有缺点,就是用户需要自己从大量的信息中选择自己需要的信息,而且可能会出现一些主题漂移或是其他方面的缺点。
最后一个是元搜索引擎,这类搜索引擎也是很重要的一类,也是很特殊的一类。这类搜索引擎没有自己的数据,它是通过将用户的查询同时发给多个搜索引擎,然后将多个搜索引擎发过来的结果通过自己的算法加以处理后排好序反馈给用户,优点是返回的信息量大,缺点是不能充分的使用原搜索引擎的功能,用户需要做更多的筛选,这里涉及到一种数据融合的过程,也就是在收到很多的搜索引擎的返回结果的时候必须进行相关的排序过程,这里的排序是按照一定地算法进行的,很多研究者就在研究这类算法的高效性,有用性,健壮性等问题,关于数据融合,吴老师有本那个导师上次给我的那本书,我还没来的及翻译,近期亦或是毕业之前应该尽力的去试着自己翻译一下,自己的要求是会开始翻译一下,整本书的翻译工作可能会用到很长时间,反正可能边学习边翻译,所以也就不会有什么难点在里面,可能有些专业的词语需要上网看一下专门的资料,我前几天大概的看了一下那本书,感觉里面涉及到的公式很多,也就是实践环节的数据量比较的大,有待通过实验验证的东西或是知识点比较多。
关于搜索引擎的发展史就只是自己了解一下,从一开始的第一个搜索引擎开始了解,其实也就是各大搜索引擎门户网站的开始时间,怎么样开始的等这类相关的问题。第一章最后还介绍了国内比较著名的搜索引擎,就几个国内比较有名的搜索引擎有几家还是不错的,至少搜索的结果还是满意的,百度的竞价排名有点突破常规,这个也是可以理解的,现在自从学习了搜索引擎以后每次检索自己想要的信息时都会不自觉的观察那个搜索引擎的质量,搜索引擎的准确度,这种感觉不错,有利于后期的搜索引擎中的信息评价。
第二章开始就详细的讲解了搜索引擎的体系结构,搜索引擎有哪些部分组成,每个部分都是怎么样工作的,发挥的是什么作用。简单的讲搜索引擎包括四个系统:下载、分析、索引、查询系统。我当时的理解是,下载系统通过网络爬虫到互联网上爬取大量的网页资料,这里要讲一下网络爬虫的爬取算法,一般采用什么样的算法进行网页的爬取,这要保证爬取的高效性,速度上一定要快,然后怎样爬取的更多的网页,当然这里涉及到的网页还要是有用的网页,没有什么用的网页爬取下来还是没什么用的。现在的想法中有个是lucene的爬虫算法的改进,直接去修改源代码,手上有本师哥的自己动手编写网络爬虫这本书,有时间就看看,只是上面设计到的知识点都比较的复杂。一般我看过的论文或是书中介绍的方法有,按照图的深度优先或是宽度优先原则来进行网页的爬取。一般来说都是很多个爬虫同时爬取,现在的都是分布式的网络爬虫协同工作,这样的效率很高,在网络爬虫工作的时候也会涉及到相关的算法,也就是网页抓取算法,选择好的网页抓取算法能更好的以更快的速度进行爬取,爬取下来后,通过分析网页里的关键词,这里要通过分析系统的工作才能完成。分析过程也会涉及到很多的知识点,也就是怎么样进行网页的切分,按照什么样的标准来进行切分,一般网页上的信息都是有个标题的,大标题,小标题里面涉及到的信息就是有用的信息,在接下来建立索引的时候会利用到这里的信息,然后将关键的信息进行分类汇总后放在搜索引擎的数据库里,也就是索引库里面。分析完成后,建立相关的索引,到索引库以便于后期的查询,最后就是用户提交自己的查询关键词,然后搜索引擎通过查询索引库将结果反馈给用户。以上的讲述只是大概的过程,实际的查询比较复杂,每个系统内部都有自己的算法,利用自身的什么原理实现的也将在后续章节中一一介绍说明。
第三章开始讲解下载系统,从网络爬虫开始,看过几篇关于网络爬虫的论文,大多数的代码看不太懂,原理上是了解的,这个我感觉还得慢慢来学习,一点点积累。网络爬虫按照一定的算法或是规定爬取网络上的信息资源,在爬虫的原理上我的理解是,爬虫作为我们设定的程序,在访问网站时首先要做到不打扰到别人,这个当然说得有些拟人了,这个其实和做人差不多,你去别人家里获取信息,当然要做到尽量不要打扰到主人,所以我们在设置爬虫时,应该遵循一些原则,在对方服务器比较忙碌的时候就不要去爬取网页资源了,访问的资源也要是经过允许才能去访问的,不能访问未经授权的网页资源,这些准则都是一些最起码的尊重。所以可以看出网上有针对网络爬虫的ROBOTS协议,规定好本网站有哪些内容是允许你访问的,哪些内容是不允许你爬取的,什么时候你可以过来采集信息,什么时候你不能过来爬取。也就是相当于礼貌问题,这个在现实生活中很重要,当然在网络上也是非常重要的。
还有关于互联网,本身是一个蝴蝶结的形状,在网页上有很多的链接,所有链接指向自己的叫做反向链接,有自己出发链接向其他网页的叫做正向链接,我们都知道,一个网页有很多的指向它的链接说明该网页很重要,没有多少网页指向它说明该网页不怎么重要。而网络爬虫当然要去爬取重要性的网页,那么怎么过滤掉那些不重要的网页才是我们这些设计者的关键问题。我们知道互联网呈现蝴蝶结的结构,所以我们尽量让我们的爬虫从蝴蝶结的左部分开始爬起,这样可以遍历整个互联网,采集到更多更有用的信息,才能保证采集到的信息比较全面。
网页一般分为目录型网页和权威性网页,目录型网页主要面向用户,帮助用户深入了解网站的信息,通过目录型网页我们可以链接向权威性网页,权威性的网页一般处于蝴蝶结的中部或是右部,这类网页的反向链接比较多,所以通常认为这类网页的重要性比较高。爬虫的抓取原理或者称之为抓取的策略大概分为两种,第一种是深度优先策略,第二种是宽度优先策略,从我看过的论文上来讲,宽度优先策略相对来说效率好一点,这个具体的还要考虑所使用的环境或是领域,在不同的地方或是范围使用不同的策略进行抓取。当然抓取的时候还要注意不能重复抓取相同的网页,不然爬虫的效率就变得很低很低,然而怎么样才能保证爬虫不重复的抓取相同的网页,这里面就涉及到几种方法,我觉得比较不错的有MD5签名的方法,给与每个网页不同的签名,这样我们就能识别出那些网页是一样的,这里当然是用每个网页的唯一的URL来计算出签名的,因为每个网页只有URL是唯一的。这里涉及到的计算方法也是研究者们在长时间的实践中了解到的,有些人研究了几十年的成果也许就是一个公式而已。
这里的签名函数还涉及到哈希函数,利用我们熟知的哈希表来完成相关的转换工作。下面讲一下网页抓取的优先策略,什么样的网页要我们优先抓取,当然通常意义上的重要的网页需要我们及时优先的抓取,重要度的衡量标准有很多,比如链接欢迎度、链接重要度、平均链接深度等等。这里可以自己定义,定义的多了,这个也就是非常权威的,多了是比较公正,当时相应的计算量也就是非常大。定义链接欢迎度是由反向链接的个数和质量决定的,个数越多、质量越好,当然我们就认为链接的欢迎度就比较高,至于链接重要度和欢迎度差不多,所连接网页的质量或是权威度越高链接的重要度也就越高。而平均链接深度是由宽度优先策略规则来保证的,这里面涉及到一个网页重返的问题,什么样的网页需要我们的爬虫重返进行重新的抓取,我们的新闻网页就需要我们的爬虫按照不定的时间来进行抓取,因为这类网页更新的比较快,只有经常的抓取才能保证信息的有效性和时新性。一般网页的更新频率满足泊松分布。这个是概率论里面的知识。网页抓取时我们的爬虫也要注意礼貌问题,一般的网站都有相对应的ROBOTS协议,用来约束爬虫的爬取活动,什么样的网页你可以爬取,什么样的网页你不能爬取,还有就是我的网站里面的什么地方你可以进来,什么地方你不能进来。特别是桌面搜索引擎,在用户计算机里面的文件,那个文件夹是可以访问的,哪些文件夹是不能随便访问的。这些在ROBOTS协议里面都已经写好了。所以还有一个就是在什么时间去爬取网站,这个就要尊重一下网站的管理员,询问一下,访问的时候不能导致对方的服务器瘫痪。
下面讲一下网页库,也就是爬虫爬取完网页后在索引库里面建立的网页数据库。我们都知道,爬虫爬取到的网页必须及时的保存到我们的磁盘上,然后建立索引库,以便于以后的用户查询。看到很多的论文谈到爬虫爬取的速度问题,当然在实际的生活中,我们的搜索引擎必须保证高效快速的返回用户的查询结果,只有这样用户才会愿意使用这样的搜索引擎。然后在搜索引擎的四大系统里面,读写问题也是影响速度的关键问题,怎么样提高读写的速度才能提高我们搜索引擎的效率,不可避免的也会出现这样的问题,更新问题,怎么样更新,以什么方式更新才能达到最快的速度,才能满足用户的需求。这本书讲了三种方法:日志结构、基于哈希的结构、还有一个是哈希日志,看名字救能够区分出来哈希日志肯定是最好的,其实哈希日志就是讲哈希结构和日志结构的优点结合在一起,更方便的提高速度,方便于用户。我们数据结构课上讲到过哈希表,关于哈希函数的生成或是计算过程也是比较了解的。这里涉及到找一个哈希函数,当然这里还涉及到操作系统里面的文件的读写与磁盘的读写问题,具体细分的话很多东西,以前老是觉得学到的知识没什么用处,就比如操作系统,感觉完全是纯理论的,虽然最后课程设计的时候把部分算法实现了,但是还是觉得实际生活没什么多大的用处,但是现在看来,就不一样了,只是当时我们还没涉及到这一块或是这一个领域。在文件的存储一块还有数据结构里面的B+—树的利用,考研的时候认真的复习了数据结构,现在看来还是不错的,有用武之地。起码看起这些文章或是书籍不会感觉那么的吃力。
最后回顾一下搜索引擎的下载系统,总结一下就归纳为三点,抓的全,抓的快,代价低,是我们搜索引擎的总原则,现在的大型的商用搜索引擎考虑的就更多了。还有动态网页支持,定向抓取,静态的网页抓取,以后发展的第三代搜索引擎涉及到智能化的搜索引擎,那个就更面向用户,比较人性化的东西。
接下来就要开始第四章的学习了,第四章是个大章,里面涉及到的知识很多,第四章讲的是分析系统,下载系统将网页下载下来后要进行分析以便于后期的建立索引。
搜索引擎的四大系统的第二个系统就是分析系统,分析系统主要完成的工作包括信息抽取、网页消重、中文分词和pagerank算法的计算等问题。下面按照各个章节的具体内容详细的来总结一下我自己的思路。
在讲那个信息抽取之前,讲一下html语言,我们都知道html语言是专门的编程语言,用于创建在www服务器上的文件,在我们的网页上有一种文本帮助用户更好的理解超链接的指向,我们称之为锚文本,锚文本通常以图片和文字的形式出现,超链接中的文本文字就是我们所说的锚文本。锚文本的作用也就是方便用户的查询,另外关于网页上的数据也就是我们通常所说的半结构化的数据。这个和普通的文本文件是有所区别的。里面包含了一些和纯文本不一样的数据信息。上面的锚文本知识也只是了解一下,关于搜索引擎的构成方面所起到的作用不大,基本上每本关于搜索引擎的书籍或是每一篇论文上都会提到这一部分内容。关于信息抽取以及网页的结构化处理,顾名思义信息抽取就是把我们爬虫从网络上抓取到的网页中的有价值的信息提取出来,所以关键的问题就是我们怎样高效率的提取里面包含的有价值的信息,为我们所用,为我们用户所用。首先网页结构化的目标是5个,其中包括锚文本、标题、正文标题、正文、正向链接。网页的这五个属性对于我们信息检索来说至关重要。关于这五个部分的具体说明就不说了,看一下就能明白。
一般性的我们处理原始网页的时候,都按照两步走的方法,首先建立html标签树,然后通过投票的方法识别正文中的文本,便按照深度优先的方法进行组织文本。这一部分看起来不怎么舒服,我的理解是这样的:就是把网页中的正文部分的标题或是锚文本提取出来,也就是刚才说到的那五个属性,一一从网页中提取出来,然后识别出来后作为该网页的摘要相当于摘要的功能,当然本身是不能称之为摘要的。只是用来说明该页的信息,这个网页说明的是什么内容。想要讲什么给我们的用户。建立标签树的过程利用到我们所学过的数据结构里的栈的存储结构,这个相对来的说也是比较好理解的,我们都知道网页中的html符号都是成对出现的,所以给与我们的栈很方便的存储,我们知道栈是先进后出的,正是利用栈的这个特性,我们能够很好的处理和建立正确的标签。方便我们后期的处理。接下来就是通过投票的方式来获得我们的正文。
一般的网页会出现三种类型的文本块,主体型文本块、目录型文本块、图片型文本块。和我们现实生活中的投票是一样的,大多数认为是正文的那就是正文部分,这样子出现错误的概率相对来说不高。具体的方法我简单的来说一下,就是我们先设定一下,如果一个文本块长多少为几分,越长分数也就相应的越高,然后再根据文本块出现在网页中的位置左边还是右边还是中间还是什么地方,根据不同的位置给与不同的分数。最后计算出每个文本块的分数,按照从高到低的顺序排列一下,选择分数高的那个文本,我们就认为它是正文。
接下来讲一下网页查重,一般人上网都不会在意,那个网页是原始的,一些相似的网页我们平时也不会太关注,原因很简单,只要能满足我们的查询需求,不管是不是原始的网页和我们用户的关系的确不是很大。但是对于搜索引擎来说就不一样了,网页相同或是相似,就意味着我们的搜索引擎就得重复处理一次,一个网页还好,要是很多网页的话我们的搜索引擎就处理不过来了,这样子既浪费时间还处理的很慢,真的很麻烦的。所以我们的采取方法排除相同的网页,最好保留最原始的网页。关于网页的查重方法我来说一下,就是判断过程分为几个部分,其实就是四种情况,两个网页内容和格式都相同、两个网页内容相同但是格式不同、两个网页有部分重要的内容相同并且格式相同、两个网页的重要的内容相同但是格式不同。目前我们就考虑这四种情况。在这里涉及到一个IMATCH方法,就是从网页里抽取出高频词,然后几个网页进行高频词的比较,也就是抽取那些能尽量代表网页主要内容的特征词来进行比较。还有一种就是shingle算法,也和前面讲的方法差不多只是它是抽取多个特征词,以示区别与imatch算法,我们就是利用这两种方法进行网页的查重。当然里面还涉及到一些计算公式,我在这里就不一一列举了。综上所讲的我来简单的概括一下,也就是总结一下,网页查重的必经的三个步骤就是特征词提取、相似度计算评价是否相似、随后就是消除重复的网页,网页查重工作在分析系统里面是不可或缺的一环,这里面涉及到的效率问题也是比较重要的,怎么样能节省时间,节省空间,减少查询的成本。这些问题都是我们现在的研究生该考虑的问题。
在我们的网页查重工作以后还有的就是中文分词工作,这个工作也是很重要的,也是比较复杂的。目前国内外的研究者们也是绞尽脑汁想各种方法来进行分词的处理,首先介绍一下什么是中文分词,中文不像英文那样有明显的分词符号,中文里面没有,而且中文里面涉及到的各种分词问题也很多,中文里的歧义太多了。相对应的处理起来的复杂度就上去了,我们一般现在有的方法是通过字典来进行分词处理的,歧义有好几种,有交集型、组合型、混合型。在这里面可以有三种基本的分词方法就是最大正向匹配、最大负相匹配、两边同时匹配。然后还有一种就要依靠统计学的原理来进行分词,用户输入的中文搜索词很多,我们只有通过日常生活中人们经常使用的一些词语来进行推测,我看过一些关于分词的论文,大多数还是这里提到的两种方法,这里也是可以考虑研究的,想想还有什么更好的方法我们可以用来进行高效率的分词。
最后一点是pagerank算法的研究,这一部分我之前也是研究的比较多,各种针对该算法的改进算法,其实最初的最原始的算法有很多的不足之处,我们后期的读者也在此基础之上提出了自己的很多改进过的算法,效果也很不错,这一块也有很多值得我们去研究探讨的。
下面接着是第五章的总结与介绍,索引系统里面存储了大量的网页,我们知道索引系统必须提供给我们用户以低于秒级的检索时间,所以检索的快、存的快、存的下是我们的最低要求。说到索引,其实索引也是一种信息,或是称之为信息的信息,也可以说是描述信息的信息。就像每本书中的索引一样,索引帮助我们更加快的查阅书目,查询到自己想要的信息。这里所用到的有四种,倒排索引、倒排表、临时倒排文件、最终倒排文件。关于这四个的定义我来讲一下,首先是倒排索引它是一个抽象的概念,不同于后面四个,后面四个是倒排索引的三个不同的表现形式。后面三个都是和存储有关,临时的和最终的规模的大小有点区别。其余都基本差不多。全文检索,是现在搜索引擎的主要的检索方式,全文检索是信息检索领域的一场革命,它细化了信息检索的粒度,使得我们能够更好的查询自己想要得到的信息。提供多视角,全方位的全新的信息检索体验,所以现在主流的搜索引擎都是采用的这中方式进行信息的检索。
当然全文检索也有相关的问题出现,比如检索的结果排序的不合理,而且现在只能对标题进行检索,出现这些问题的原因是因为我们没有考虑到文档的内容。全文检索顾名思义就是对整个文档或是网页内容进行检索,而现在我们只是检索其中的一部分信息,比如标题,或是摘要什么的。所以全文检索的本质我归纳为两条:文档的全部文字参与索引、检索结果能够提供检索词在文档中出现的位置信息。这样既考虑到文本内容的一致性也考虑到位置信息的相关性,能很好地满足我们用户的检索需要。在检索的过程中我们的用户输入几个关键词,然后我们的搜索引擎就根据这几个关键词来进行全文的检索,最后进行排序把结果返回给我们用户查阅。关于文档的编号,我来总结一下我自己的理解,每个文档在网络上应该是唯一的,都有自己的唯一编号,所以我们给与每个文档一个编号,就像我们学生使用的学号,一个网页被我们的爬虫爬取到后就给与一个相应的编号。文档编号和我们日常生活中的编号不一样的地方在于文档编号不需要给与其含义,就是我们已要求说为什么给与这个文档这个编号,为什么给与那个文档那个编号。这个编号也是为了我们后续的操作方便。当然这个变化也不是随随便便就给与的,也要满足相应的条件,每个文档在其相对于的生命周期内只能有一个编号,任何两个不同的文档的编号不能相同。为了便于计算,我们文档的编号要越短越好,方便与计算机的存储,较少浪费空间。下面关于具体的存储方面的倒排索引的计算问题我就不总结了,每种方法的计算都是不一样的,都有其简单方便的一面,也有其数据结构的基础引用。关于创建索引就和C++里面的链表差不多,和数学上的函数引用一样,操作系统里讲到的磁盘的调度或是存储也是按照这个来的。总的来说第五章设计到的知识点还是比较多的,相对来说还有许多比较难的地方我还没有吃透,还要多看几篇,慢慢消化,再进一步的把其中涉及到方法的部分写出来。现在还在看几本书籍,还是比较入门的书籍,看过后每次的收获都是不一样的。
第六章也就是最后的一个步骤,搜索引擎的最终目的就是然后用户输入自己的查询关键词,然后我们的搜索引擎通过关键词进行搜索。在搜索引擎的四大系统里第四个系统称之为查询系统,查询系统直接面对我们的用户,在接受我们用户的查询请求后通过检索、排序及摘要的计算等工作,将计算结果组织成搜索结果页返回给我们的用户。而且我们的搜索引擎必须保证整个查询该过程必须要快,而且必须能够提供返回给用户的结果使得用户满意。如果只是很快的返回结果给我们的用户,不保证结果的满意性,那肯定是不够的。在查询系统里涉及到一个概念是信息熵,信息熵也就是信息的一个量化过程,本科时数据结构里介绍过哈弗曼编码,该编码通过计算不同词汇的词频来构建哈夫曼树或是哈弗曼编码,通常高频词汇的编码比较的短,低频词汇的编码比较长,不过直观上的事情还是不能解释很多东西的,下面举个例子来说明一下信息熵的概念,我们生活中有很多例子双方约定几点在什么地方见面类似的问题,在不考虑信息安全的前提下如何保证对方已经收到你的消息,一般你发一个短信给你的好朋友,只有他回复你的短信,你能确定他收到了你发给他的信息,但是他又是怎么样知道你收到了他发给你的信息了呢,这是个无限循环的问题,对于我们消息的编码有很多种,对于以上问题还是不能够很好的回答。
我们的数学中,或是计算机网络里面我们学到过通信的时候,信息包含的情况越多,那么我们信息就越具有价值,概率论中分为很多种情况,当然这样的话通信所需要的消耗也是比较大的。信息熵只是说明了概率和信息的关系,也就是变量的不确定性越大,那么其熵值也就是越大,将其搞清楚所需要的信息量也就是越大,从中我们知道信息熵是个很重要的概念。下面我来介绍一下检索和查询的区别,本章的约定有个前提,其实查询对应着一次检索,用户端的查询就是搜索引擎对应的检索。也就是查询的结果就是搜索引擎搜索的网页,当然查询词与检索词也是有区别的,普通用户提交给查询系统的词称之为查询词,然后当我们的查询词提交给我们的检索系统时就成为了检索词。最后的一个概念是自动文本摘要,顾名思义也就是从文本中提取出来的能代表全文意思的摘要,用户仅仅需要浏览一下摘要就能大概的理解这文本的主要内容,用户只要看一下自己的查询词与文档中摘要的相关度就能知道这文档是不是自己想要的文档。
本章第二节讲的是几个检索的模型,很多书本中一开始就介绍这一部分内容。这一部分涉及到的公式很多,能理解的很少吧,很多都已经成型了,从最简单的布尔模型讲起,非是即是的模型就是布尔模型,就两种情况,也比较的简单,不需要过多的理解很多的情况下都是很多搜索引擎先采用布尔模型而后再利用向量空间模型更进一步的查询相关度,与用户查询的相似度。至于怎么样生成搜索结果的页面我这里就不详细介绍了,里面还有我现在不怎么理解的东西,所以等后面我理解的够多够深刻,把这一部分知识全部理解透。好好整理一下,然后写出来,说实话老师您叫我写这个双周汇报,其实我写出来我也知道不是给您看的,是给我自己看的,以后的大论文写作涉及到几十万字,还要自己来完成的。平时的累积到时候就能体现出价值来,可能我平时写的时候也是语气上有点口语化。我以后尽量改过来,写得像自己的总结,也要向论文的写作规范。这一方法的训练我也会注意的。上面每一部分的总结都是表面上的,后续我会继续写得更加的深一点,因为每个概念必须搞懂,只有这样才能更好的打下基础,才能有便于后续的发展。这篇总结我看过不下5遍了,每次看过后感觉还行,尽管写的不是很好,但是毕竟是我几个月的成果,对于搜索引擎中的总结与思考已经入门了,接下来会继续巩固成果继续看更多的论文与好的书籍,只有不断地改进自己的知识面,或是叫做拓展自己的知识面,才能更好地面对以后的更大的挑战。我相信自己的能力,别人能做到的我也会也能做到!!!就像施老师您所说的那样,现在不懂没事,当时一定要搞懂最后,欺骗自己没什么意思,大学里奋斗了四年,才有了今天的成果,我还是会好好努力的拼搏,为将来打下良好的基础,准备考博,然后好好搞学术研究,我自己很喜欢这样的工作。