网络爬虫简介
网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。
从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
网络爬虫有很多种方式,比较常见的是python爬虫,java爬虫,Go爬虫,本文主要介绍的是java网络爬虫。
java网络爬虫关键技术及难点
java网络爬虫关键技术主要包括页面解析技术,URL处理,数据存储,爬行策略,反爬虫应对策略,爬虫时效等。
页面解析技术用的比较多的比如正则表达式解析,jsoup解析器,Selenium等,正则表示式和jSelenium这里就不多做介绍了,jsoup 是一款开源Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup 可以从包括字符串、URL 地址以及本地文件来加载 HTML 文档,并生成 Document 对象实例,通过DOM对象来解析获取需求数据。
URL处理包括URL的解析,URL选取,URL存储,URL调度等,爬虫首先有一个目标网站等URL,从目标URL中爬取页面内容解析需要等URL,并对URL根据特定对规则进行赛选并存储在URL队列中,根据制定对策略进行URL调度爬取网页内容。这里主要介绍一些URL存储和调度,由于爬虫系统一般都是分布式的,存储上选取高性能的缓存数据库redis,存储和读取数据非常高效,且支持的数据类型丰富,采用list 和 set两种数据结构结合来存储URL并可以设定优先级顺序,在调度时根据设定的优先级顺序来获取redis存储对象拿到URL进行依次调度爬取网页内容。在URL调度时,还需要对请求响应的结果进行管理,同样存储到Redis中,记录为响应成功的URL队列和处理异常的URL队列,后续看调度策略再对异常的URL队列进行处理。
数据存储即对爬取到的有效数据进行存储入库,一般比较常用的是HBase 和 Mysql。对于网络爬虫来说,一般都是爬取的特定数据,具有一定形态的数据,一般都可以用关系型数据库来进行存储,本文就选取Mysql来介绍爬虫的数据存储。对于分布式的爬虫系统,写入数据操作一般都是高并发,如果直接写库对数据库压力太大,很容易造成IO阻塞。一般解决办法是用缓存来辅助,先把数据存到缓存中,然后在同步到数据库,由于并发较大,对缓存要求也比较高。另一个办法可以使用消息队列来做缓冲,写入数据先进消息队列,然后在入库,并对数据库做一定对分表设计,来降低数据库并发压力。
爬行策略一般包括深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略等,这里就不多做说明,一般都采用深度优先爬行策略。
反爬虫是一般正规网站都会采用的策略,比如非浏览器检测、封 IP、验证码、封账号、字体反爬等,所以在爬取过程中必须要针对这些反爬虫做相应的改进策略。一般服务器都会限制IP访问,爬虫系统需要IP代理池的设计,代理一般可以抓取免费代理、购买付费代理、使用 Tor 代理、Socks 代理等,每访问一次就换随机换一个代理IP,另外,访问速度也不能太快,最好做一个延迟访问的策略。限制反爬虫策略。还有很多网站都要求验证码,对于普通图形验证码,如果非常规整且没有变形或干扰,可以使用 OCR 识别,也可以使用机器学习、深度学习来进行模型训练,当然打码平台是最方便的方式;对于滑动验证码,可以使用破解算法,也可以模拟滑动。后者的关键在于缺口的找寻,可以使用图片比对,也可以写基本的图形识别算法,也可以对接打码平台,也可以使用深度学习训练识别接口;对于算术题验证码,推荐直接使用打码平台。
一般爬虫爬取的数据量都比较大,还有各种限制策略,所以如何提升爬虫的时效也是一个实际的问题,常见的措施有多线程、多进程、异步、分布式、细节优化等。可以结合爬虫策略及URL调度来统一整合,这里做不详细说明。
java网络爬虫的主要步骤
一般爬虫流程主要步骤可以总结发起请求、获取响应内容、解析响应内容、保存数据,总结来一些参考下面流程图。
总结
java爬虫说起来是件简单的事情。但是往往简单的事情要做到极致就需要克服重重困难。要设计搭建一个java网络爬虫系统,核心在于对整个系统的设计以及理解上,希望本文能帮助大家对java网络爬虫有一定对理解。