分词与索引库-国平

用户搜索一个关键词,搜索引擎马上找到相关的网页给用户。这个过程要怎么实现呢?
首先搜索引擎要尽可能多的把互联网上的网页搜集下来,这样能提供大量的网页给用户查询。这一部分由爬虫来解决,顺着互联网上的链接一个个往下抓取。最后就有了一堆记录着网页各种信息的资料库。目前的现状,最后能使这个资料库里有大概100多亿个网页。资料库里记录了这些网页的URL,整个网页的HTML代码,网页标题等等信息。
然后,搜索引擎拿到用户输入的这个关键词后,要从这个资料库里把相关的网页找出来给用户。

1.搜索引擎如何找到匹配的网页呢?

建立一份索引库

搜索引擎查找网页流程

2.索引库的分类方式:词语/分词

搜索引擎的索引库

3.搜索引擎处理过程

搜索引擎处理过程

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容