WebCollector 的爬虫使用笔记

需求 : 要抓取大量行业文章。
于是想到之前的WebCollector 。

github 主页https://github.com/CrawlScript/WebCollector

构思:需要保存数据 到数据库 等
所以需要 数据库连接的jar 包以及一些便于使用的。最终项目引用的jar包:

image.png
 public class NewsCrawler2 extends BreadthCrawler {

/**
 * @param crawlPath
 *            crawlPath is the path of the directory which maintains
 *            information of this crawler
 * @param autoParse
 *            if autoParse is true,BreadthCrawler will auto extract links
 *            which match regex rules from pag
 */
public NewsCrawler2(String crawlPath, boolean autoParse) {
    super(crawlPath, autoParse);
    /* start page */
    this.addSeed("http://news.hfut.edu.cn/list-1-1.html");

    /* fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml */
    this.addRegex("http://news.hfut.edu.cn/show-.*html");
    /* do not fetch jpg|png|gif */
    this.addRegex("-.*\\.(jpg|png|gif).*");
    /* do not fetch url contains # */
    this.addRegex("-.*#.*");
}

public void visit(Page page, CrawlDatums next) {
    String url = page.getUrl();
    /* if page is news page */
    if (page.matchUrl("http://news.hfut.edu.cn/show-.*html")) {
        /* we use jsoup to parse page */
        Document doc = page.getDoc();

        /* extract title and content of news by css selector */
        String title = page.select("div[id=Article]>h2").first().text();
        String content = page.select("div#artibody", 0).text();

        System.out.println("URL:\n" + url);
        System.out.println("title:\n" + title);
        System.out.println("content:\n" + content);

        /* If you want to add urls to crawl,add them to nextLink */
        /*
         * WebCollector automatically filters links that have been fetched
         * before
         */
        /*
         * If autoParse is true and the link you add to nextLinks does not
         * match the regex rules,the link will also been filtered.
         */
        // next.add("http://xxxxxx.com");
    }
}

public static void main(String[] args) throws Exception {
    NewsCrawler2 crawler = new NewsCrawler2("crawl", true);
    crawler.setThreads(50);
    crawler.setTopN(100);
    // crawler.setResumable(true);
    /* start crawl with depth of 4 */
    crawler.start(4);
            //.setResumable(true);

    /*
     * 设置是否为断点爬取,如果设置为false,任务启动前会清空历史数据。 如果设置为true,会在已有crawlPath(构造函数的第一个参数)的基础上继
     * 续爬取。对于耗时较长的任务,很可能需要中途中断爬虫,也有可能遇到 死机、断电等异常情况,使用断点爬取模式,可以保证爬虫不受这些因素
     * 的影响,爬虫可以在人为中断、死机、断电等情况出现后,继续以前的任务 进行爬取。断点爬取默认为false
     */
}

}

这是给的例子。

笔记

1解析部分:

public void visit(Page page, CrawlDatums next) 中解析
获取meta 信息

html 中

<meta property="og:type" content="article" />

  Document doc = page.getDoc(); 
  String category = doc.head().select("meta[property=og:type]").first().attr("content");

根据 div 的id 或者 class 来获取元素


image.png
String title_and_author = page.select("div[id=leftcontent]").select("[class=post-title]").text();

获取 图片连接 //选择div[id=leftcontent] 中的图片,图片class=image.

        Elements imgs = page.select("div[id=leftcontent]").select("[class=image]");
        System.err.print("imgs count=" + imgs.size());
        for (Element img : imgs) {
            String imgSrc = img.attr("abs:src");
                System.err.println("imgSrc" + imgSrc);
             }

通用的是:

Elements imgs2 = page.select("main[id=leftcontent]").select("img[src]");

保存文本 txt 换行"\r\n"

 String txtcontent = page.getUrl() + "\r\n" + title + "\r\n" + author + "\r\n" + date + "\r\n" + category
                + "\r\n" +description;

2 添加代理、User-Agent

重写getResponse

 @Override
public HttpResponse getResponse(CrawlDatum crawlDatum) throws Exception {

    /* 设置代理服务器 */
    Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress("127.0.0.1", 8087));
        //HttpRequest hr = new HttpRequest(crawlDatum, proxy );
    HttpRequest hr = new HttpRequest(crawlDatum, null);

    // hr.setProxy(proxy);
    hr.setUserAgent(getusergent());
    return hr.getResponse();
}

private static String[] agentarray = { "Mozilla/5.0 (compatible, MSIE 10.0, Windows NT, DigExt)",
        "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, 360SE)",
        "Mozilla/4.0 (compatible, MSIE 8.0, Windows NT 6.0, Trident/4.0)",
        "Mozilla/5.0 (compatible, MSIE 9.0, Windows NT 6.1, Trident/5.0),",
        "Opera/9.80 (Windows NT 6.1, U, en) Presto/2.8.131 Version/11.11",
        "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, TencentTraveler 4.0)",
        "Mozilla/5.0 (Windows, U, Windows NT 6.1, en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
        "Mozilla/5.0 (Macintosh, Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
        "Mozilla/5.0 (Macintosh, U, Intel Mac OS X 10_6_8, en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
        "Mozilla/5.0 (Linux, U, Android 3.0, en-us, Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13",
        "Mozilla/5.0 (iPad, U, CPU OS 4_3_3 like Mac OS X, en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
        "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, Trident/4.0, SE 2.X MetaSr 1.0, SE 2.X MetaSr 1.0, .NET CLR 2.0.50727, SE 2.X MetaSr 1.0)",
        "Mozilla/5.0 (iPhone, U, CPU iPhone OS 4_3_3 like Mac OS X, en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
        "MQQBrowser/26 Mozilla/5.0 (Linux, U, Android 2.3.7, zh-cn, MB200 Build/GRJ22, CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1" };

public static String getusergent() {
    Random rand = new Random();
    return agentarray[rand.nextInt(agentarray.length)];

}

3.数据库部分

在mysql 中创建 表

选定数据库

执行sql

 CREATE TABLE `test` (
  `key` INT(11) UNSIGNED NOT NULL AUTO_INCREMENT,
  `id` INT(11) UNSIGNED NOT NULL,
  `title` VARCHAR(255) NOT NULL,
    `author` VARCHAR(255) NOT NULL,
  `date` VARCHAR(255) DEFAULT NULL,
  `category` VARCHAR(255) DEFAULT NULL,
  `header_image` VARCHAR(255) DEFAULT NULL,
  `content_image` VARCHAR(5000) NOT NULL,
  `content` TEXT DEFAULT NULL,
  `content_zh` TEXT DEFAULT NULL,
  `website` VARCHAR(255) DEFAULT NULL,
  `url` VARCHAR(255) DEFAULT NULL,
  PRIMARY KEY (`key`)
) ENGINE=INNODB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

手动把MYSQL 的connection jar包配置加进去。

创建对象 对应字段 getset方法

image.png

创建 数据库操作dao

public class Dao {

private Connection conn = null;
private Statement stmt = null;

public Dao() {
    try {
        Class.forName("com.mysql.jdbc.Driver");
        String url = "jdbc:mysql://localhost:3306/webmagic?user=root&password=000000&autoReconnect=true";
        conn = DriverManager.getConnection(url);
        stmt = conn.createStatement();
    } catch (ClassNotFoundException e) {
        e.printStackTrace();
        System.err.println(e.toString());
    } catch (SQLException e) {
        e.printStackTrace();
        System.err.println(e.toString());
    }

}

public int add(Info info) {

    System.err.println(info.toString());
    try {
        String sql = "INSERT INTO `webmagic`.`test` (`id`, `title`, `author`,`date`,  `category`, `header_image`, `content_image`, `content`,`content_zh`,  `website`, `url`) VALUES (?,?, ?, ?, ?, ?, ?,?,?, ?, ?);";
        PreparedStatement ps = conn.prepareStatement(sql);
        ps.setInt(1, info.getId());
        ps.setString(2, info.getTitle());
        ps.setString(3, info.getAuthor());
        ps.setString(4, info.getDate());
        ps.setString(5, info.getCategory());
        ps.setString(6, info.getHeader_image());
        ps.setString(7, info.getContent_image());
        ps.setString(8, info.getContent());
        ps.setString(9, info.getContent_zh());
        ps.setString(10, info.getWebsite());
        ps.setString(11, info.getUrl());
        return ps.executeUpdate();
    } catch (SQLException e) {
        System.out.println(e.toString());
        e.printStackTrace();
    }
    return -1;
}

}

其中两部分要注意:
1.mysql连接的 语句 ip+port ,数据库名,用户密码,
当时直接网上抄,竟然是3307 端口,坑了一把。
2.插入SQL 要依次对应上 数据库 和数据库中的表名。

最后在解析数据之后,创建要保存的对象实例。使用dao的实例的add方法添加进去 保存到数据库。


image.png

4.其他

  1. 同一个网站 页面可能有多种 样式,要对比区分,做到兼容。

2.采用设计模式归类 能是结构更清晰,工厂模式、代理模式。

5.补充

2018年4月25日 17:10:41

1.对于 img :src 和img srcset 的曲折路程
部分图片可以直接解析 imgsrc 但是默认不是 质量最佳的图

<a href=http://xxx.com//xx_1.jpg"><img width="250" height="188" src="http://xxx.com/xx_1-250x188.jpg" class="attachment-medium size-medium" alt="xxx." srcset="http://xxx.com/xx_1-250x188.jpg 250w, http://xxx.com/xx_1-500x375.jpg 500w, http://http://xxx.com/xx_1.jpg 700w" sizes="(max-width: 250px) 100vw, 250px"></a>
round 1

有些是 默认最佳的图,有些是默认最后一个。于是一开始 就选定srcset中最后一个

代码:

Elements gallery_items = page.select("div[id=gallery-1]").select("[class=gallery-item]");
for (Element item : gallery_items) {
       String[] srcset = item.select("[class=attachment-medium size-medium]").attr("abs:srcset").split(",");
      // do smt
    String url_0  = srcset[srcset.length - 1];
    String imgurl = url_0.substring(0, url_0.lastIndexOf(".") + 5).trim();// 考虑到 .jpeg的格式

 }
round 2

然后结果却发现 部分图还是很小,结果却发现 竟然有部分 最佳质量图并不是 在srcset 中最后一个,对比发现,大尺寸的图往往是没有 最后的那个尺寸后缀,于是 考虑找到 最短那个就是最佳的图:

if (srcset.length > 0) {
    int p = srcset.length - 1;
    for (int i = 0; i < srcset.length; i++) {
    if (srcset[i].length() < srcset[p].length()) {
        p = i;// 记录地址长度最短坐标
            }

}
round 3

结果发现还是有部分 很小,对比发现,srcset 中连接都是带尺寸的,大尺寸是800*1280 最大,长度也比别的长了一点,于是还要考虑到 最短长度不是一个的时候。

 // 如果 最短的不是最后一个 则下错了 要重新下
if (p != srcset.length - 1) {
        // 如果最短的 有共同的长度 其他的 则需要判断最长的
  if (p > 0 && srcset[p].length() == srcset[p - 1].length()) {
           for (int i = 0; i < srcset.length; i++) {
        if (srcset[i].length() > srcset[p].length()) {
            p = i;// 记录地址长度最长
            }
        }
        }
    else if (p == 0 && srcset[0].length() == srcset[p + 1].length()) {
    for (int i = 0; i < srcset.length; i++) {
        if (srcset[i].length() > srcset[p].length()) {
            p = i;// 记录地址长度最长

            }
    }
}

String url_0 = srcset[p];
  1. 部分加载更多使用ajax 没有明确的页码
    wordpress 框架 可以直接在分类后加上/page/页码
    在这种默认分类 页的head 中有 next 页的 连接
image.png

获取和解析方法:

        Document doc = page.getDoc();
        Elements kwMetas = doc.head().select("link[rel=next]");
        String nexturl= "";
        if (kwMetas != null && !kwMetas.isEmpty()) {
            Element kwMate = kwMetas.first();
            nexturl= kwMate.attr("href");
            next.add(nexturl);
            System.err.println("href---->" + nexturl);
        }
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,099评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,828评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,540评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,848评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,971评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,132评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,193评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,934评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,376评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,687评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,846评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,537评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,175评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,887评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,134评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,674评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,741评论 2 351

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,642评论 18 139
  • 早晨,一缕缕阳光透过窗帘照射进了房间,而我仍睡眼惺忪,妈妈早早起了床,出门去买菜。 前几天,妈妈因为身体不适住了几...
    爬行者木子兮阅读 512评论 2 1
  • 深圳,放映一场 很长很长的电影 长到可以放映 一百年,或者 几百年不许变 同样不会变的 电影 深圳 一个露天电影院...
    中午生阅读 228评论 2 3