Java网络爬虫实操(8)

上一篇:Java网络爬虫实操(7)

大家好,本篇文章介绍一下NetDiscovery爬虫框架里的downloader对象

1) 前言

面向对象设计仍然是目前编程的核心思想,从下面截图可以了解爬虫框架的主要对象:


程序在本地组织好一个request后,交给downloader从网络上抓取数据到本地,然后由parser处理本地的这些数据,最终生成可用的信息。

2) downloader介绍

downloader我们也称为下载器,主要功能就是访问网络并成功抓回我们要的数据:例如html网页、json/xml数据、二进制流(图片、office文档等)
目前NetDiscovery支持的downloader实现有:

面向接口编程是这个框架的重要设计思想之一。

以下介绍部分downloader代码,这些代码的共同点是实现了Downloader接口。

作为程序开发者,你也可以实现接口com.cv4j.netdiscovery.core.downloader.Downloader,创建自己的下载器类。

  • UrlConnectionDownloader
    这个用的是jdk自带的包,java.io、java.net
//1、构建一个URL对象
url = new URL(request.getUrl());
//2、获取一个HttpURLConnection对象
conn = url.openConnection();
//3、一堆设置
conn .setDoOutput(true);
conn .setDoInput(true);
conn .setRequestMethod("POST");
......
//4、访问网络服务
conn.connect();
//5、执行成功的话,获取结果
conn.getResponseCode();
conn.getInputStream();
  • HttpClientDownloader
    这个是用开源包apache httpclient实现的,代码就更加简洁优雅了。
//1、获取一个HttpManager对象(框架自己封装的)
HttpManager httpManager = HttpManager.get();
//2、然后把request扔进去,等结果就可以了.request也是框架封装的
httpManager.getResponse(request)
//3、等来结果后,进行处理
            @Override
            public Response apply(CloseableHttpResponse closeableHttpResponse) throws Exception {
                String charset = null;
                if (Preconditions.isNotBlank(request.getCharset())) {
                    charset = request.getCharset();  //针对一些还是GB2312编码的网页
                } else {
                    charset = "UTF-8";
                }
                String html = EntityUtils.toString(closeableHttpResponse.getEntity(), charset);
                Response response = new Response();
                response.setContent(html.getBytes());
                response.setStatusCode(closeableHttpResponse.getStatusLine().getStatusCode());
                if (closeableHttpResponse.containsHeader("Content-Type")) {
                    response.setContentType(closeableHttpResponse.getFirstHeader("Content-Type").getValue());
                }

                return response;
            }
  • VertxDownloader等类大家有需要都可以去了解一下。

3) 总结

总之,爬虫程序本质上是一个网络程序,网络程序的核心模块离不开对网络数据的处理。建议学习爬虫的伙伴们,要看源代码的话,可以先从框架中的downloader相关代码开始了解。相信一定会有收获的。

下一篇:Java网络爬虫实操(9)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,860评论 25 709
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,079评论 19 139
  • 风车村
    小周桥桥桥桥阅读 74评论 0 0
  • 墓碑 文 /陌宇轩 从时光的角度上看 你有着为人民的一面 为思念的故人留一方静土 你忍心听 世人呼唤亲友的哭声 你...
    小哲小诗阅读 157评论 0 0