kkndme神贴爬虫(java)···

前言

前不久拜读了kk大神的帖子《2010年的房地产调控,我们收获了什么?写在房价暴涨前》。。。全程目瞪狗呆······ 观后感就不说了,主要还是说说java。这个帖子几百页上万的回复,其中不乏一些毫无营养的路人回复内容,让我感到不舒服。身为程序猿的我是不是可以让自己“舒服点”呢?于是决定搞一搞爬虫(虽然我也不确定自己写的算不算爬虫,但至少满足了我的需求)。嘻嘻,leedcode好像好久没刷了。。。

准备工作

先找规律:

  • 路径的规律:
    http://bbs.tianya.cn/post-house-252774-1.shtml
    http://bbs.tianya.cn/post-house-252774-2.shtml
    很容易看出帖子的url分三个部分:
    前缀(http://bbs.tianya.cn/post-house-252774-) + 页码 + 后缀(.shtml)

  • kk的回复dom 元素规律:
    稍微会一点前端就可以看的出,天涯是通过自定义属性_host来标记回复人的。如图:

    image.png

    那我们可以通过获取_host=kkndmediv来获取kk的回复。当然,还要过滤调回复的回复,这个很简单,我们只要取当前回复的第一个回复体就好,具体回复体有哪些特点相信我不说大家也能发现。

  • 要爬取的来源和元素我们都清楚了,接下来就是找一个合适的工具,java里原生jar并没有什么对解析html支持特别好的工具,我这里使用的是jsoup,在java里操作dom就像用js一样自如。

万事具备,只差编码。我们的思路是循环请求帖子的每一页,然后按上述过滤方式将每一页的结果输出到文件。

编码环节:

按照上述思路结合jsoup文档,很快就写出了代码,毕竟比较基础就不粘贴了,大家请想象,for each 请求写文件。一百多页的帖子大概爬了85秒。很慢(虽然浏览器直接访问,加载也很慢),但还是很多地方可以优化,比如请求页面的时候,可以多个线程同时请求不同的页面。放到线程池后爬取时间大概是55秒。爬下来的帖子读起来比较困难,这个时候就需要css的润色。

结论:

这次并没有详细的写过程代码,主要讲解思路哈哈哈,毕竟我自己的代码我自己都嫌弃。

还是贴一下主要代码:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import thread.ThreadFactoryBuilder;

import java.io.BufferedWriter;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.concurrent.*;
import java.util.concurrent.atomic.AtomicInteger;

/**
 * @author 尚晓琼
 * @version V1.0
 * @since 2018/12/19
 */
public class RobotDom {
    private static int pageStart = 1;
    private static int pageEnd = 131;
    private static String baseUrl = "http://bbs.tianya.cn/post-house-252774-";
    private static String suffix = ".shtml";
    private static String first = "<!DOCTYPE html>\n" +
            "<html lang=\"en\">\n" +
            "<head>\n" +
            "    <meta charset=\"UTF-8\">\n" +
            "    <title>Title</title>\n" +
            "</head>\n" +
            "<body>\n" + "<style>\n" +
            ".content{\n" +
            "\tborder: 2px solid gray;\n" +
            "    border-radius: 20px;\n" +
            "    padding: 20px;\n" +
            "    margin: 20px 0;\n" +
            "    background-color: #cde9a2;\n" +
            "}\n" +
            ".date-time{\n" +
            "    padding-left: 40%;\n" +
            "    color: royalblue;\n" +
            "    font-size: large;\n" +
            "    margin: 0 0 15px 0;" +
            "}" +
            ".link-ty{" +
            "margin-left: 20px;" +
            "}" +
            "</style>";
    private static String last = "</body>\n" +
            "</html>";
    private static String divS = "<div class='content'>\n";
    private static String divE = "\n</div>\n";
    private static AtomicInteger total = new AtomicInteger(0);
    private static String[] contents = new String[pageEnd];
    private static CountDownLatch latch = new CountDownLatch(pageEnd);

    public static void main(String[] args) {
        String attr = "_host";
        String value = "kkndme";
        String[]temp=baseUrl.split("/");
        String fileName=temp[temp.length-1]+value+".html";
        Path path = Paths.get("F:/robot/"+fileName);
        BufferedWriter writer = null;
        ThreadFactory threadFactory = new ThreadFactoryBuilder().build();
        int corePoolSize=16;
        int maximumPoolSize=200;
        long keepAliveTime=0L;
        int capacity=1024;
        BlockingQueue<Runnable> blockingQueue=new LinkedBlockingQueue<>(capacity);
        ExecutorService workers = new ThreadPoolExecutor(corePoolSize, maximumPoolSize, keepAliveTime, TimeUnit.MICROSECONDS, blockingQueue, threadFactory);
        try {
            long startTime=System.currentTimeMillis();
            writer = Files.newBufferedWriter(path);
            writer.write(first);
            for (int i = pageStart; i <= pageEnd; i++) {
                final int pageIndex = i;
                workers.submit(() -> doRobot(pageIndex, attr, value));
            }
            latch.await();
            System.out.println("爬取完成,输出文件ing。。。");
            for (String content : contents) {
                if (content != null) {
                    writer.write(content);
                }
            }
            workers.shutdown();
            writer.write(last);
            long endTime=System.currentTimeMillis();
            System.out.println("输出文件成功,耗时:"+(endTime-startTime));
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            if (writer != null) {
                try {
                    writer.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
    }

    private static void doRobot(int i, String arr, String value) {
        String url = baseUrl + i + suffix;
        Document document = null;
        try {
            document = Jsoup.connect(url).timeout(0).get();
            Elements elements = document.getElementsByAttributeValue(arr, value);
            int size = elements.size();
            final int index = i;
            StringBuilder contentsInPage = new StringBuilder();
            elements.forEach(element -> {
                contentsInPage.append(divS);
                Element dateTime = element.select(".atl-info").select("span").last();
                contentsInPage.append("\n<div class='date-time'>");
                if (dateTime != null) {
                    contentsInPage.append(dateTime.html());
                }
                contentsInPage.append("     <a class='link-ty' href='").append(url).append("'>page:").append(index).append("</a>").append("\n</div>\n");
                Elements content = element.select(".bbs-content");
                contentsInPage.append(content.html());
                contentsInPage.append(divE);
            });
            contents[i] = contentsInPage.toString();
            total.addAndGet(size);
            System.out.println("第" + i + "页爬取完成,爬取:" + size + ",累计:" + total);
        } catch (IOException e) {
            System.out.println("第" + i + "页爬取失败,累计:" + total);
            e.printStackTrace();
        } finally {
            latch.countDown();
            System.out.println("未爬取页数:" + latch.getCount());
            System.out.println("当前线程:" + Thread.currentThread().getName());
        }
    }
}

爬取效果还不错:


image.png

各位再见,我继续拜读了!!!

爬取结果
提取码:anar

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335