Java爬虫入门篇(一)HttpClient+jsoup,以及防盗链简述

本文中使用的HttpClient是在apache HttpClient的基础上封装的class,文章末尾会给出源码分享

  • 思路:首先我们用HttpClient模拟请求,获取到html代码,用jsoup解析过滤html,获取我们想要的数据。
  • 场景描述:因为我要抓取这个网站所有分页的数据,我在用HttpClient模拟请求之前,在chrome中直接访问url,发现请求被重定向?这就很麻烦了!
  • 分析:正常我们通过window.location.href发出的request请求Referer这个参数都会有值,当我们通过其他方式访问的时候(浏览器直接访问,HttpClient)这个参数值为null
    request

防盗链大致代码如下:

public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain)
    throws IOException, ServletException {
    HttpServletRequest req = (HttpServletRequest) request;
    HttpServletResponse resp = (HttpServletResponse) response;
    String referer = req.getHeader("referer");
    //window.location.href
    if(null != referer && (referer.trim().startsWith("http://localhost:8033")||referer.trim().startsWith("http://www.zhihuidaojia.cn/"))){
         System.out.println("正常页面请求"+referer);
         chain.doFilter(req, resp);
   //其他方式请求,例如浏览器输入地址,或者我们的爬虫
    }else{
         System.out.println("盗链"+referer);
         req.getRequestDispatcher("/LdapLogin.jsp").forward(req, resp);
    }
}

防盗链的作用限制你只能在浏览器端通过类似window.location.href这种请求去访问,禁止其他方式请求,所以我们只需要在请求的时候模拟这个参数就ok了!

下面看核心代码
maven

        <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.5.1</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/commons-httpclient/commons-httpclient -->
        <dependency>
            <groupId>commons-httpclient</groupId>
            <artifactId>commons-httpclient</artifactId>
            <version>3.1</version>
        </dependency>

模拟请求

    public void catchHy88() throws Exception{
        for (int i=1; i<508; i++) {
            log.info("循环开始,当前索引:" + i);
            String url = "http://www.abc.com/search.html?kw=大连金州&type=company&page=PAGE_NUM/";
            HttpClient httpClient = new HttpClient(url.replace("PAGE_NUM", Integer.toString(i)));
            //设置referer参数,绕过防盗链
            httpClient.setReferer("www.abc.com");
            //获取html
            String html = httpClient.request();
            log.info("接收到返回的html消息,开始筛选数据");
            //处理html 获取data
            HY88Converter hy88Converter = HY88Converter.getInstance();
            List<Company> list = hy88Converter.html2Company(html, i);
            //批量执行数据库操作,当List长度为N时
            companyMapper.batchInsert(list);
        }
    }

这时候已经获取html代码了,可以开始抓取数据了
先分析页面结构

html

我需要的数据,全在<div class="conttext">中,所以我们要获取所有的<div class="conttext">,然后遍历
具体代码为:
Elements elements = doc.select("div.conttext")
然后遍历Elements,进一步筛选。
jsoup 语法类似 jquery,相比用正则表达式,我觉得这种方式更便捷一些吧
下面是我的源码

import java.util.ArrayList;
import java.util.List;

import org.apache.commons.lang3.StringUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import com.taven.web.hy88crawler.entity.Company;

public class HY88Converter {

    private static HY88Converter instance = null;
    
    /**
     * 返回单例
     * 
     * @return
     */
    public static HY88Converter getInstance() {
        if (instance == null)
            instance = new HY88Converter();
        return instance;
    }
    
    /**
     * 将抓取到的html信息转为公司实体
     * 
     * @param html
     */
    public List<Company> html2Company(String html, Integer currentPage) {
        List<Company> companyList = new ArrayList<Company>(); 
        Document doc = Jsoup.parse(html);
        Elements elements = doc.select("div.conttext");
        for (Element element : elements) {
            try {
                String phoneStr = element.select("li[class=com]:contains(电话号码)").text();
                String phone = phoneStr.replace("电话号码", "");
                //如果包含 - 说明是座机 执行下一次
                if (StringUtils.isBlank(phone) || phone.contains("-") )
                    continue;
                String contact = element.select("li[class=fen]").text();
                if (StringUtils.isBlank(contact))
                    continue;
                String name = element.select("p[class=p-title]").select("a").attr("title");
                companyList.add(new Company(name, phone, contact, currentPage));
            } catch (Exception e) {
                continue;
            }
        }
        return companyList;
    }
    
}

转载请注明出处,原文作者:殷天文
HttpClient工具类源码 链接: https://pan.baidu.com/s/1mkl9yL6 密码: hfzv
参考文献
jsoup 中文api
HttpClient参考博客,感谢原作者

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,637评论 18 139
  • 随着互联网+时代的来临,越来越多的互联网企业层出不穷,涉及游戏、视频、新闻、社交、电商、房产、旅游等众多行业。如今...
    JackChen1024阅读 10,711评论 2 49
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,857评论 25 707
  • 最近很烦躁,这几天心里有太多东西,很多计划的事情都没有做好,感觉陷入了恶循环当中。实际上,造成这种情况的...
    小落墨smile阅读 258评论 2 3
  • 接上文。你怎么把他给带来了?副院长答道,院长,这就是我送给您的礼物,我们学院八年毕不了业,一顿饭吃八大...
    贾馨婷阅读 126评论 2 0