爬取煎蛋网妹子图 - 好玩的代码

之前一直以为爬虫是一种很牛逼的东西,甚至以为是一种黑客技术。在大三下学期一次机缘下(有一位同学的Android课的期末设计是在github上找了一个爬取校园官网新闻的app,给老师看的时候老师让改改,但是代码是找的,不知道怎么改,最后让我帮忙看看。我就给研究了下代码给解决了一下,顺便知道了怎么写爬虫)。在这个过程中,自己也算会了爬虫,就想写个爬虫试试,既然写的话,就写个有意思的喽。于是就有了这个妹子图爬虫。

前言

首先,煎蛋网妹子图的链接在这http://jandan.net/ooxx 可以先观摩一下~
其次,这次爬虫使用了java的爬虫库JSoup,爬虫的主要原理是能够根据网页的有规则节点来获取想要的内容,JSoup这个库能够比较简单获取节点相关内容等。
最后,不懂爬虫的可以先去百度一下,了解下原理什么的。这里用妹子图这个很浅显的解释一下:本来我们看这个网站就一张张的看,看完一页手动点下一页接着看,用代码写的话,也是一张图片一张图片的拿,拿完一页之后,找到下一页的链接,然后接着拿图片,找下一页链接,直到全部拿完。

目标

把妹子图里面的每张图片的链接拿到,顺便也把这张图片的点赞数(oo)和踩数(xx)给获取到,储存在文件里。以便爬取完之后简单的分析一下。

思路

其实写这个程序最开始的思路并不是很清晰,后面有一些问题,是一步步解决的。

  1. 人工分析妹子图图片链接,xx和oo数量在网页中的节点规律,并写出来。
  2. 后来发现爬着爬着就报错了,煎蛋网有防爬虫策略如果过快的爬取就会把你的ip封掉,就不能访问了。这里要找一些对策。
  3. 爬完了之后,就要尽情享用一下啦。把oo数量最多的100张图片根据链接下载下来,把oo数量最多的gif图拿出来。如果顺便把上传者也给获取了的话,还能看看谁发的最多,谁发的妹子图综合评价最高等等。这里懒得难受就不获取上传者了。

获取内容

这一步是基础,首先要能拿到页面文本内容才能爬取,能够自动去下一页才能翻页爬取。就是根据链接拿内容和根据下一页的节点位置获取下一页的链接。不多说,看代码看注释,这里顺便把一些基础的东西贴上。

mian函数主要是调用了Crawler的action函数,剩下的是算算时间。

public class JsoupTest {
    public static void main(String[] args) {

        SimpleDateFormat dfs = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
        Date start = new Date();

        //开始运行
        Crawler crawler = new Crawler();
        crawler.action();

        Date end = new Date();
        System.out.println("开始时间:" + dfs.format(start));
        System.out.println("结束时间:" + dfs.format(end));
        long msec = end.getTime() - start.getTime();
        if ((msec / (1000 * 60)) > 60) {
            long hour = msec / (1000 * 60 * 60);
            long min = msec % (1000 * 60 * 60) / 1000 / 60;
            System.out.println("单线程运行共花费时间:" + hour + "小时" + min + "分钟");
        }
        else {
            long min = msec / (1000 * 60);
            System.out.println("单线程运行共花费时间:" + min + "分钟");
        }
    }
}

Crawler的属性和构造函数

    //可以多放几个链接,多线程爬取
    private static String[] originUrlArr = {
            "http://jandan.net/ooxx"
    };

    //结果列表
    private List<XXOOEntity> xxooList;
    //要爬取的链接
    private List<String> urlList;
    //爬过的链接
    private List<String> oldUrlList;
    //当前链接
    private String indexUrl;
    
    public Crawler() {
        xxooList = new ArrayList<XXOOEntity>();
        urlList = new ArrayList<String>();
        oldUrlList = new ArrayList<String>();
        urlList.addAll(Arrays.asList(originUrlArr));
    }

然后把XXOOEntity贴一下。

public class XXOOEntity {


    private String imageUrl;
    private int xx;
    private int oo;

    public XXOOEntity() {

    }

    public XXOOEntity(String imageUrl, int xx, int oo) {
        this.imageUrl = imageUrl;
        this.xx = xx;
        this.oo = oo;
    }

    public String getImageUrl() {
        return imageUrl;
    }

    public void setImageUrl(String imageUrl) {
        this.imageUrl = imageUrl;
    }

    public int getXx() {
        return xx;
    }

    public void setXx(int xx) {
        this.xx = xx;
    }

    public int getOo() {
        return oo;
    }

    public void setOo(int oo) {
        this.oo = oo;
    }
}

然后就是爬取入口action函数了。

public void action() {
        if (urlList.size() > 0) {
            indexUrl = urlList.get(urlList.size()-1);
            urlList.remove(urlList.size()-1);
            oldUrlList.add(indexUrl);
            
            System.out.println("index!!!!" + indexUrl);


            try {
                Thread.sleep(1000 * 10);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
            crawl(indexUrl);
        }
        else {
            System.out.println("结束");
            System.out.println("数据:" + xxooList.size());
            System.out.println("页面:" + oldUrlList.size());
            save();
        }
    }

然后是爬取函数,这里注意一下,HtmlInputStream这个类和http://www.jianshu.com/p/5962728dd5b6 这篇文章最后的类是同一个,不过加了一些抵御反爬虫的代码。下面再细说。

private void crawl(String indexUrl) {
        Document doc = null;

        //这个地方用了自己写的根据链接获取本文内容的类
        String contentStr = HtmlInputStream.getContent(indexUrl, "utf-8");
        Document content = Jsoup.parse(contentStr);

        //这里是类容爬取
        contentCrawl(content);
        //这里是获取下一个连接的函数
        urlCrawl(content);
        System.out.println("\n\n");
        //这里接着爬取
        action();
    }

完成的时候别忘了保存一下

private void save() {
        Gson gson = new Gson();
        String aviString = gson.toJson(xxooList);
        
        FileOutputStream fis;
        try {
            fis = new FileOutputStream("jiandanxxoo.txt");
            fis.write(aviString.getBytes());
            fis.close();
            
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
        System.out.println("保存成功");
    }

分析规律

首先看一下一张妹子图条目的样式,左边有上传者、时间。主体部分有一个查看原文的链接,有一张图片,右上角还有一个id,右下角是xx和oo的数量,还有一个吐槽的按钮。我们需要的只有图片,xx数量和oo数量。


妹子图条目样式

在图片处或者[查看原图]处,右键审查元素,我用的是chrome,点击最先面的检查。就会出现html对应的代码。比如我在图片那里检查一下,就会出现下面的代码。

审查元素结果

看呐,图片链接有了,再在xxoo那里一审查,xxoo的数量也都有了。剩下的就是根据这些节点的关系找规律写代码了。

经过我的分析,图片的获取可以使用[查看原图]那里的链接,直接获取class名为view_img_link节点的src属性即可。而xx和oo的数量可以用class名为vote的第二个和第四个孩子节点来获取。

ok啦,剩下就是写代码了,下面我就直接把代码贴出来了,

private void contentCrawl(Document content) {
        
        
        Elements elements = content.getElementsByClass("text");
        XXOOEntity xxooEntity;
        for (Element element : elements) {
            xxooEntity = new XXOOEntity();

            //xx
            String xx = element.getElementsByClass("vote").first().children().get(2).text();

            //oo
            String oo = element.getElementsByClass("vote").first().children().get(4).text();


            //图片链接
            Elements imageUrls = element.getElementsByClass("view_img_link");
            for (Element imageUrlElement : imageUrls) {

                String imageUrl = imageUrlElement.attr("href");
                xxooEntity.setImageUrl(imageUrl);
                System.out.println(imageUrl);

                xxooEntity.setXx(Integer.parseInt(xx));
                System.out.println(xx);

                xxooEntity.setOo(Integer.parseInt(oo));
                System.out.println(oo);

                xxooList.add(xxooEntity);
            }
        }
        
    }

下一页的链接获取,原理同上。

private void urlCrawl(Document content) {
        Element element = content.getElementsByClass("cp-pagenavi").first();
        if (element != null) {
            List<Node> lists = element.childNodes();
            System.out.println("num:::" + lists.size());
            for (Node node : lists) {

                String url = node.attr("href");
                if (url != null && url != "") {
                    if (!oldUrlList.contains(url) && !urlList.contains(url)) {
                        urlList.add(url);
                        System.out.println(url);
                    }
                }
            }
        }
        else {
            urlList.add(indexUrl);
        }
    }

反爬虫应对策略

反爬虫的做法就是检测一个ip是不是过于频繁的访问自己的网站,对应的我们要做的就是不让他们认为我们频繁的访问他们的网站。

这里的办法是爬的慢一点,然后多弄一些ip地址,然后设置代理,让这些代理ip循环的访问网站。还有就是访问失败的时候的报错都给捕获到,别让程序崩了。至于代理ip,百度上一搜一大堆,但是基本上都要付费,还是挺烦的。

这个的设置位置在获取网页内容的地方设置,我就写在了HtmlInputStream.getContent里面,这里不再写出来一遍了。和之前的那个唯一的区别在于找了一大堆代理ip,轮换着设置代理,这里就写一下怎么设置代理。

Proxy proxy = new Proxy(Type.HTTP, new InetSocketAddress(ipStr, port));
URLConnection conn = url.openConnection(proxy);

顺便说一下,之前我也没花钱买代理ip,只是顺便用爬虫抓取了一大堆免费的代理ip,循环着使用,遇到报错的ip就扔掉,扔到还剩1/3就不扔了,最后剩下的说明可用性还比较高。谁想写可以自己试一下。

分析

哇咔咔,享受成果的时候来了。

最后的分析没啥技术含量,就把抓取的所有妹子图图片下载了一堆oo数量比较高的来欣赏啦~

欣赏一下

最后

有点虎头蛇尾的感觉,打完收工。
就写到这程度吧,有点懒得慌。如果有超过五个人要代码的话,我再把代码传上来。

欢迎关注【Funny新青年】微信公众号~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容