探索java网络爬虫

网络爬虫简介

网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。

从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

网络爬虫有很多种方式,比较常见的是python爬虫,java爬虫,Go爬虫,本文主要介绍的是java网络爬虫。

java网络爬虫关键技术及难点

java网络爬虫关键技术主要包括页面解析技术,URL处理,数据存储,爬行策略,反爬虫应对策略,爬虫时效等。

页面解析技术用的比较多的比如正则表达式解析,jsoup解析器,Selenium等,正则表示式和jSelenium这里就不多做介绍了,jsoup 是一款开源Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup 可以从包括字符串、URL 地址以及本地文件来加载 HTML 文档,并生成 Document 对象实例,通过DOM对象来解析获取需求数据。

URL处理包括URL的解析,URL选取,URL存储,URL调度等,爬虫首先有一个目标网站等URL,从目标URL中爬取页面内容解析需要等URL,并对URL根据特定对规则进行赛选并存储在URL队列中,根据制定对策略进行URL调度爬取网页内容。这里主要介绍一些URL存储和调度,由于爬虫系统一般都是分布式的,存储上选取高性能的缓存数据库redis,存储和读取数据非常高效,且支持的数据类型丰富,采用list 和 set两种数据结构结合来存储URL并可以设定优先级顺序,在调度时根据设定的优先级顺序来获取redis存储对象拿到URL进行依次调度爬取网页内容。在URL调度时,还需要对请求响应的结果进行管理,同样存储到Redis中,记录为响应成功的URL队列和处理异常的URL队列,后续看调度策略再对异常的URL队列进行处理。

数据存储即对爬取到的有效数据进行存储入库,一般比较常用的是HBase 和 Mysql。对于网络爬虫来说,一般都是爬取的特定数据,具有一定形态的数据,一般都可以用关系型数据库来进行存储,本文就选取Mysql来介绍爬虫的数据存储。对于分布式的爬虫系统,写入数据操作一般都是高并发,如果直接写库对数据库压力太大,很容易造成IO阻塞。一般解决办法是用缓存来辅助,先把数据存到缓存中,然后在同步到数据库,由于并发较大,对缓存要求也比较高。另一个办法可以使用消息队列来做缓冲,写入数据先进消息队列,然后在入库,并对数据库做一定对分表设计,来降低数据库并发压力。

爬行策略一般包括深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略等,这里就不多做说明,一般都采用深度优先爬行策略。

反爬虫是一般正规网站都会采用的策略,比如非浏览器检测、封 IP、验证码、封账号、字体反爬等,所以在爬取过程中必须要针对这些反爬虫做相应的改进策略。一般服务器都会限制IP访问,爬虫系统需要IP代理池的设计,代理一般可以抓取免费代理、购买付费代理、使用 Tor 代理、Socks 代理等,每访问一次就换随机换一个代理IP,另外,访问速度也不能太快,最好做一个延迟访问的策略。限制反爬虫策略。还有很多网站都要求验证码,对于普通图形验证码,如果非常规整且没有变形或干扰,可以使用 OCR 识别,也可以使用机器学习、深度学习来进行模型训练,当然打码平台是最方便的方式;对于滑动验证码,可以使用破解算法,也可以模拟滑动。后者的关键在于缺口的找寻,可以使用图片比对,也可以写基本的图形识别算法,也可以对接打码平台,也可以使用深度学习训练识别接口;对于算术题验证码,推荐直接使用打码平台。

一般爬虫爬取的数据量都比较大,还有各种限制策略,所以如何提升爬虫的时效也是一个实际的问题,常见的措施有多线程、多进程、异步、分布式、细节优化等。可以结合爬虫策略及URL调度来统一整合,这里做不详细说明。

java网络爬虫的主要步骤

一般爬虫流程主要步骤可以总结发起请求、获取响应内容、解析响应内容、保存数据,总结来一些参考下面流程图。


总结

java爬虫说起来是件简单的事情。但是往往简单的事情要做到极致就需要克服重重困难。要设计搭建一个java网络爬虫系统,核心在于对整个系统的设计以及理解上,希望本文能帮助大家对java网络爬虫有一定对理解。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容