大数据采集与处理的关键技术研究

互联网大数据采集与处理的关键技术研究金融大数据科技
http://www.cfc365.com/technology/bigdata/2015-03-04/13202.shtml

2.数据采集的基本流程
整个数据采集过程的基本步骤如下:
(1)将需要抓取数据的网站的URL信息(Site URL)写入URL Queue; (2)爬虫从URL队列中获取需要抓取数据的网站的Site URL信息; (3)获取某个具体网站的网页内容; (4)从网页内容中抽取出该网站正文页内容的链接地址; (5)从数据库中读取已经抓取过内容的网页地址(Spider URL); (6)过滤URL。将当前的URL和已经抓取过的URL进行比较; (7)如果该网页地址没有被抓取过,则将该地址写入(Spider URL)数据库;如果该地址已经被抓取过,则放置对这个地址的抓取操作; (8)获取该地址的网页内容,并抽取出所需属性的内容值; (9)将抽取的网页内容写入数据库。

    **3.数据采集的关键技术——链接过滤**
    链接过滤的实质就是判断一个链接(当前链接)是不是在一个链接集合(已经抓取过的链接)里面。在对网页大数据的采集中,可以采用布隆过滤器来实现对链接的过滤。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容