爬虫究竟是怎样开始的

爬虫究竟是怎样开始的?

爬虫究竟是怎样开始的?这个问题是一个很难的哲学问题。如果看官对技术术语更敏感,那么可以表述为,爬虫,严格说爬虫的scheduler,如果需要保持一个status,到底是poll还是push?
本文将讨论并解决这个问题。(注:不说人话)

从“一次性”爬虫开始说起

image.png

上图为最简单的一次爬虫过程。究其本质,这个过程的核心是一个"种子页面"->"目标页面"->"目标页面链接"->"目标页面"的循环。也就是说,给定若干种子页面,和一些目标页面链接的匹配规则Rule,一定可以通过不断循环,把这个网站Site上所有被覆盖到的、符合匹配规则的页面集合P={page ∈ Site|Rule}获取到。这个P是一个有穷集合。P获取到了,爬虫结束。

讨论到这,大概勉强达到大学计算机专业本科期末作业的水平。但是想要及格,或许还应该考虑这么几个方面:

  • 数据库:这个话题能截好多图:)
  • 多线程:P的数量如果很大,我需要把“下载网页、保存数据库”这样的动作放进多线程里跑跑。
  • 前端队列:我需要一个前端队列!“生产者-消费者”模式,呵呵。
  • 历史队列:是的,我还需要一个历史队列!不然爬重复了怎么办?
  • Javascript:淘宝的网页怎么爬?
  • 反爬:这是一个long story,甚至比人类的历史还要久远。

Done。至此我们已经实现了一个异常牛逼的爬虫程序。如果想把“程序”变成“系统”,则需要考虑更多工程上的东西:如何分布式。

稳定性迁移

分布式的终极目的,是要把单机程序(进程)里任何不稳定因素,通过迁移到外部更稳定的程序(进程)的方式,达到系统全局更稳定的目的。另外一方面,通过这几年被“微服务”概念不断地洗脑,工程人员最喜欢用的一个词是“解耦合”。

更进一步,如果我们希望我们的爬虫是一个“永远在线”的服务(引擎),“爬某一个网站的网页”这样的事情被当成某一个任务(task),随时启动、暂停、停止,这不得不让我们重新在架构上考虑得更多。

document-service

之前讨论的几个方面中,最应该第一个抽取出来的服务就是存储服务。无论选择使用MongoDB还是ES来保存网页,对外屏蔽底层的存储方案无疑是个优雅的idea。对外透出save()和saveBatch()操作。

queue-service

抽取出“前端队列”和“历史队列”作为队列服务。如果你将Redis作为选型方案,那么“前端队列”是一个List,支持类似fetch(30)这样的操作;“历史队列”则是一个Set,支持hasVisit()和visit(link)这样的操作。

downloader-service

作为高阶玩家,抽离出网页下载服务也是有必要的。URL进,Document出。downloader对外屏蔽了诸如“异常重试”、“中文编码自适应”、“代理IP池维护和切换”、“Headless浏览器渲染”、“http连接池复用”等一切跟网络IO有关的细节。

sql-service

如前所述,爬取的工作被当成任务来执行。每一项任务自身有着各种meta信息,启动一个任务的示例(instance)也关联运行时的meta信息,这些信息保存在关系数据库中并对外透出CRUD接口,在此不做赘述。

回到正题:scheduler

前文所述的各种service作为工具一样的组件封装完备后,为了让整个爬虫run起来,接下来该讨论整个爬虫引擎中最核心的scheduler-worker问题了。

Master-Worker模式的分布式框架,从Doug Cutting写下Hadoop的第一行代码开始逐渐深入人心。很不幸的是我们并不能从中获得太多启发。

先说worker。由于爬虫引擎是“永远在线”的,那么worker(一个独立的进程)也是永远在线的。因此我们想到了push方案:

  • worker-push方案。即,worker们在启动时,把自身注册到scheduler中。scheduler中维护了worker们的通讯ip列表,当有任务启动时,scheduler在列表中随机挑选worker,并在queue-service中fetch(N)条待爬取的URLs,然后post给worker去抓取。

好的,开始自我挑战吧。push最大的一个毛病,就是scheduler需要与worker建立了直接的通信并时刻测试通信。不要试图从Hadoop中找方案,凭直觉我们又想到了poll方案:

  • worker-poll方案。即,worker保持一个while/true循环(sleeps may be),不断的看看queue-service里有没有要爬的网页。没有就continue,有就该干啥干啥。当然,worker们监听一个消息队列也是可取的,这样queue-service就不得不做一些改造。

Worker以poll的方式监听消息队列自然是一个省事的好方式,但scheduler侧该如何设计呢?先看push方案:

  • scheduler-push方案。worker保持一个while/true循环(sleeps may be),不断的看看种子列表(或队列)里有没有要爬的网页。没有就continue,有就该干啥干啥。

这样做的好处是:首先容易实现,逻辑简单明了,还可以动态调整sleep的时间,我靠太牛逼了!当然坏处是:不管怎么动态调整sleep的时间,始终是有滞后和开销的矛盾。不太符合对实时性有要求的场景,说好的“事件驱动”呢?

屌,我们终于说到“事件驱动了”。我们现在要解决的问题是,如何感知到并且以最小的开销让任务启动?那么下面提供一个push+pull的方案,也是本文作为一篇“记叙文”的中心思想,权当抛砖引玉:

  • scheduler-push+pull方案。即,scheduler以较快频率(30秒)poll种子列表的返回数据(网页)是否有变动,如没有变动continue,如有变动解析出任务URL,作为事件push到消息队列中待worker爬取。

再接再厉,现在似乎剩下的最后一个问题就是,如何以最小开销检测种子列表里的网页是否有变动呢?我们联想到了浏览器+刷新的方式。基于开源框架selenium,甚至可以很容易实现对于“网页局部元素是否有更新”这种监听的动作。

show me the code

import java.util.List;
import java.util.Map;
import java.util.concurrent.TimeUnit;

import com.google.common.collect.Lists;
import com.google.common.collect.Maps;
import io.reactivex.schedulers.Schedulers;
import jodd.util.StringUtil;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.openqa.selenium.By;
import org.openqa.selenium.JavascriptExecutor;
import org.openqa.selenium.PageLoadStrategy;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
import org.openqa.selenium.support.ui.ExpectedConditions;
import org.openqa.selenium.support.ui.WebDriverWait;
import utils.MD5;

/**
 * @author craig
 * @since 2018年6月21日 上午10:50:54
 */
public class SiteMonitor {

    private WebDriver driver;
    private Map<SiteBean, Integer> siteBeanMap;
    private Map<SiteBean, String> siteTokenMap;

    /**
     * 
     */
    public SiteMonitor(String chromePath) {
        System.setProperty("webdriver.chrome.driver", chromePath);
        ChromeOptions co = new ChromeOptions();
        co.setPageLoadStrategy(PageLoadStrategy.NORMAL);
        co.setHeadless(true);
        driver = new ChromeDriver(co);
        siteBeanMap = Maps.newHashMap();
        siteTokenMap = Maps.newHashMap();
    }
    
    /**
     * @throws InterruptedException 
     * 
     */
    public Document openInNewTab(WebDriver webDriver, SiteBean siteBean) throws InterruptedException {
        List<String> tabs = Lists.newArrayList(driver.getWindowHandles());
        ((JavascriptExecutor) driver).executeScript("window.open('about:blank','_blank');");
        tabs = Lists.newArrayList(driver.getWindowHandles());
        siteBeanMap.put(siteBean, tabs.size() - 1);
        siteTokenMap.put(siteBean, "");
        driver.switchTo().window(tabs.get(tabs.size() - 1));
        driver.navigate().to(siteBean.getSiteURL());
        return Jsoup.parse(driver.getPageSource(), siteBean.getHost());
    }

    /**
     * @throws InterruptedException 
     * 
     */
    public void monitoring(List<SiteBean> siteBeanList) throws InterruptedException {

        for (int i = 0; i < siteBeanList.size(); i++) {
            openInNewTab(driver, siteBeanList.get(i));
        }

        Schedulers.trampoline().createWorker().schedulePeriodically(new Runnable() {
            
            @Override
            public void run() {

                for (int i = 0; i < siteBeanList.size(); i++) {
                    SiteBean sb = siteBeanList.get(i);
                    driver.switchTo().window(Lists.newArrayList(driver.getWindowHandles()).get(siteBeanMap.get(sb)));
                    
                    WebElement newContent = new WebDriverWait(driver, 60)
                            .until(ExpectedConditions.presenceOfElementLocated(By.cssSelector(sb.getElementLocated())));

                    String newToken = MD5.getMD5(newContent.getText());
                    if (!StringUtil.equals(siteTokenMap.get(sb), newToken)) {
                        siteTokenMap.put(sb, newToken);
                        
                        String html = newContent.getAttribute("outerHTML");
                        Document doc = Jsoup.parseBodyFragment(html);
                        System.out.println(sb.getSiteName() + "有更新:" + doc.text());
                        System.out.println("~~~~~~~~~~~~~~~~~~~~~~update!~~~~~~~~~~~~~~~~~~`");
                    } else {
                        System.out.println(sb.getSiteName() + "无更新");
                    }
                }
            }
        }, 0, 1, TimeUnit.MINUTES);
    }

    public static void main(String[] args) throws Exception {

        SiteMonitor sm = new SiteMonitor("/Users/craig/chromedriver");
        //
        List<SiteBean> siteBeanList = Lists.newArrayList();
        
        SiteBean sb = new SiteBean();
        sb.setSiteName("财经");
        sb.setElementLocated("#instantPanel");
        sb.setHost("163.com");
        sb.setSiteURL("http://money.163.com/latest/");
        siteBeanList.add(sb);
        
        SiteBean sb2 = new SiteBean();
        sb2.setSiteName("体育");
        sb2.setElementLocated("#instantPanel");
        sb2.setHost("163.com");
        sb2.setSiteURL("http://sports.163.com/latest");
        siteBeanList.add(sb2);
        
        sm.monitoring(siteBeanList);
    }
}

如你所见,通过以上代码我们做到了近实时监听种子页面的变化,从而做到了让爬虫引擎永远在线,通过消息队列的方式解耦合了scheduler和worker,从而让爬虫朝稳定性上又迈进了一步。所以这也是本文作为一篇杂文的一个推论。也所以作为一篇杂文如果连推论都写了出来,可想而知这是什么屌杂文。周末了不如回家吃饭好了^^。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352

推荐阅读更多精彩内容

  • 必备的理论基础 1.操作系统作用: 隐藏丑陋复杂的硬件接口,提供良好的抽象接口。 管理调度进程,并将多个进程对硬件...
    drfung阅读 3,533评论 0 5
  • 后端架构师技术图谱 最后更新于20180502 数据结构队列集合链表、数组字典、关联数组栈树二叉树完全二叉树平衡二...
    01_小小鱼_01阅读 1,806评论 0 38
  • 我不想把自己,妆扮的 如何美丽 因为我是一颗 晶莹剔透的玉 我不想委曲,我真心的 流露 因为,心中确有 放不下的忧...
    吉羊玉奕v阅读 1,464评论 32 49