《自己动手写网络爬虫》第三篇笔记

第三篇:自己动手挖掘Web数据

存储链接之间的关系,小型的可以放在内存中,大的在内存数据库中建立链接关系。

Web图包含出度和入度信息,可以根据这个对链接进行排序。

PageRank算法,一个网页重要程度依赖于它的入链,高等级的文件链接到网页,则此网页的等级也高。

HITS算法,网页赋两个值hub和authority ... ...

去掉重复的文档:a> 可以比较checksum值判断完全相同的文档。可以用MD5算法计算checksum值。 b> 文档结构化再生成语义指纹,

分类与聚类:机器学习。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 链接分析 我们在最开始说过,搜索引擎在查找能够满足用户需求的网页时,主要会考虑两方面的因素,一方面是用户发出的查询...
    我偏笑_NSNirvana阅读 3,406评论 1 12
  • 姓名:李昕洲 学号:16030120026 转载自:https://zm8.sm-tc.cn/?src=l4u...
    浩浩_72a0阅读 625评论 0 0
  • 这个系列的第六个主题,主要谈一些搜索引擎相关的常见技术。 1995年是搜索引擎商业公司发展的重要起点,《浅谈推荐系...
    我偏笑_NSNirvana阅读 6,753评论 3 24
  • soure code 一:Pagerank:PageRank是Google用于衡量特定网页相对于搜索引擎索引中的其...
    SamDing阅读 1,527评论 0 1
  • 2016年11月11日,他说,我虽然不是她心中的完美女孩,但是,他就喜欢我这样的,我心里不服,说,那就找你的完美小...
    他的定律她的命阅读 788评论 0 1