Jsoup爬取心灵毒鸡汤

不乱于心,不困于情。不畏将来,不念过往。如此,安好。

你的梦想是什么

之前一直在搞微博,定时转发抽奖微博,搞定后,meilexiawen。最近想想定时发点有意思的东西也不错,发啥呢?毒鸡汤,没错!
【一个人至少拥有一个梦想,有一个理由去坚强。心若没有栖息的地方,到哪里都是在流浪。 ——三毛】

开始你的表演

  1. 首先找个毒鸡汤网站,并定位关键节点。汤的成色还不错。

    心灵鸡汤
  2. 按F12,对元素分析下。选中其中一个,右键Copy selector。

    #contentinside > div.totallikecontent > div > div > div.view-content > div.views-row.views-row-1.views-row-odd.views-row-first
    

    这样只能标识一个,好在jsoup.select支持正则。

    #contentinside > div.totallikecontent > div > div > div.view-content > div[class~=^views-row]
    
  3. 开始编写代码。目前没发现网站有什么限制。除了.....

    public void getTotallike() throws IOException {
       String url = "http://www.juzimi.com/totallike";
       String ua = "User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36";
       Document parse = Jsoup.connect(url).userAgent(ua).execute().parse();
    
       Elements select = parse.select("#contentinside > div.totallikecontent > div > div > div.view-content > div[class~=^views-row]");
       for (Element element : select) {
           String author = element.select("div > div.xqjulistwafo").text();
           String content = element.select("div > div.views-field-phpcode-1 > a").text();
           System.out.println(content +"   "+author);
       }
    }
    
  4. 存储这些鸡汤,倒掉怪可惜的,我这里就统一放到redis里,因为只爬了15条。

        ArrayList<Object> poisons = new ArrayList<>();
        for (Element element : select) {
            String author = element.select("div > div.xqjulistwafo").text();
            String content  = element.select("div > div.views-field-phpcode-1 > a").text();
            System.out.println(content +"   "+author);
            poisons.add(content + "   " + author);
        }
        String value = JSONObject.toJSONString(poisons);
        stringRedisTemplate.opsForValue().set("Poison", value);
    
    先生,您的鸡汤

表演结束

每天定时,早晚各一次

番外

因为jsoup访问网站时,没指定User-Agent时会默认带下面这个User-Agent

Request() {
            super(null);
            this.method = Method.GET;
            this.addHeader("Accept-Encoding", "gzip");
            this.addHeader("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36");
            this.parser = Parser.htmlParser();
        }

看着和普通PC端UA没什么区别,所以一般我都不带(用默认的)。奇怪的事就发生了。



基本内容和作者都是乱的,每次还不一样,不知道是不是UA的问题,我换了UA就没问题了,Mac电脑的朋友可以测测看。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容

  • **2014真题Directions:Read the following text. Choose the be...
    又是夜半惊坐起阅读 9,460评论 0 23
  • 问答题47 /72 常见浏览器兼容性问题与解决方案? 参考答案 (1)浏览器兼容问题一:不同浏览器的标签默认的外补...
    _Yfling阅读 13,747评论 1 92
  • 上海进入黄梅天不是一天两天的事,这沥沥落落的雨,灰色的天空,让人的心好不痛快。但是,上礼拜,不管是上网,还是进入朋...
    ElleLee阅读 33,475评论 14 12
  • 维罗妮卡平庸的生活,没有激动,没有悲伤,什么都没有,就只有一天一天的重复。谈不上很幸福,也谈不上不幸福。她闭...
    家以纯阅读 354评论 2 3
  • 高雅别致的小皮裙包臀裙,带一丝小俏皮,遮肉显瘦的同事,勾勒出迷人曲线。拼接的设计增添了时尚感,时尚范十足,拥有独特...
    于贺贺阅读 708评论 0 0