WebCollector 的爬虫使用笔记

需求：要抓取大量行业文章。
于是想到之前的WebCollector 。

github 主页https://github.com/CrawlScript/WebCollector

构思：需要保存数据到数据库等
所以需要数据库连接的jar 包以及一些便于使用的。最终项目引用的jar包：

image.png

 public class NewsCrawler2 extends BreadthCrawler {

/**
 * @param crawlPath
 *            crawlPath is the path of the directory which maintains
 *            information of this crawler
 * @param autoParse
 *            if autoParse is true,BreadthCrawler will auto extract links
 *            which match regex rules from pag
 */
public NewsCrawler2(String crawlPath, boolean autoParse) {
    super(crawlPath, autoParse);
    /* start page */
    this.addSeed("http://news.hfut.edu.cn/list-1-1.html");

    /* fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml */
    this.addRegex("http://news.hfut.edu.cn/show-.*html");
    /* do not fetch jpg|png|gif */
    this.addRegex("-.*\\.(jpg|png|gif).*");
    /* do not fetch url contains # */
    this.addRegex("-.*#.*");
}

public void visit(Page page, CrawlDatums next) {
    String url = page.getUrl();
    /* if page is news page */
    if (page.matchUrl("http://news.hfut.edu.cn/show-.*html")) {
        /* we use jsoup to parse page */
        Document doc = page.getDoc();

        /* extract title and content of news by css selector */
        String title = page.select("div[id=Article]>h2").first().text();
        String content = page.select("div#artibody", 0).text();

        System.out.println("URL:\n" + url);
        System.out.println("title:\n" + title);
        System.out.println("content:\n" + content);

        /* If you want to add urls to crawl,add them to nextLink */
        /*
         * WebCollector automatically filters links that have been fetched
         * before
         */
        /*
         * If autoParse is true and the link you add to nextLinks does not
         * match the regex rules,the link will also been filtered.
         */
        // next.add("http://xxxxxx.com");
    }
}

public static void main(String[] args) throws Exception {
    NewsCrawler2 crawler = new NewsCrawler2("crawl", true);
    crawler.setThreads(50);
    crawler.setTopN(100);
    // crawler.setResumable(true);
    /* start crawl with depth of 4 */
    crawler.start(4);
            //.setResumable(true);

    /*
     * 设置是否为断点爬取，如果设置为false，任务启动前会清空历史数据。 如果设置为true，会在已有crawlPath(构造函数的第一个参数)的基础上继
     * 续爬取。对于耗时较长的任务，很可能需要中途中断爬虫，也有可能遇到 死机、断电等异常情况，使用断点爬取模式，可以保证爬虫不受这些因素
     * 的影响，爬虫可以在人为中断、死机、断电等情况出现后，继续以前的任务 进行爬取。断点爬取默认为false
     */
}

}

这是给的例子。

笔记

1解析部分：

public void visit(Page page, CrawlDatums next) 中解析
获取meta 信息

html 中

<meta property="og:type" content="article" />

则

  Document doc = page.getDoc(); 
  String category = doc.head().select("meta[property=og:type]").first().attr("content");

根据 div 的id 或者 class 来获取元素

image.png

String title_and_author = page.select("div[id=leftcontent]").select("[class=post-title]").text();

获取图片连接 //选择div[id=leftcontent] 中的图片，图片class=image.

        Elements imgs = page.select("div[id=leftcontent]").select("[class=image]");
        System.err.print("imgs count=" + imgs.size());
        for (Element img : imgs) {
            String imgSrc = img.attr("abs:src");
                System.err.println("imgSrc" + imgSrc);
             ｝

通用的是：

Elements imgs2 = page.select("main[id=leftcontent]").select("img[src]");

保存文本 txt 换行"\r\n"

 String txtcontent = page.getUrl() + "\r\n" + title + "\r\n" + author + "\r\n" + date + "\r\n" + category
                + "\r\n" +description；

2 添加代理、User-Agent

重写getResponse

 @Override
public HttpResponse getResponse(CrawlDatum crawlDatum) throws Exception {

    /* 设置代理服务器 */
    Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress("127.0.0.1", 8087));
        //HttpRequest hr = new HttpRequest(crawlDatum, proxy );
    HttpRequest hr = new HttpRequest(crawlDatum, null);

    // hr.setProxy(proxy);
    hr.setUserAgent(getusergent());
    return hr.getResponse();
}

private static String[] agentarray = { "Mozilla/5.0 (compatible, MSIE 10.0, Windows NT, DigExt)",
        "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, 360SE)",
        "Mozilla/4.0 (compatible, MSIE 8.0, Windows NT 6.0, Trident/4.0)",
        "Mozilla/5.0 (compatible, MSIE 9.0, Windows NT 6.1, Trident/5.0),",
        "Opera/9.80 (Windows NT 6.1, U, en) Presto/2.8.131 Version/11.11",
        "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, TencentTraveler 4.0)",
        "Mozilla/5.0 (Windows, U, Windows NT 6.1, en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
        "Mozilla/5.0 (Macintosh, Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
        "Mozilla/5.0 (Macintosh, U, Intel Mac OS X 10_6_8, en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
        "Mozilla/5.0 (Linux, U, Android 3.0, en-us, Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13",
        "Mozilla/5.0 (iPad, U, CPU OS 4_3_3 like Mac OS X, en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
        "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, Trident/4.0, SE 2.X MetaSr 1.0, SE 2.X MetaSr 1.0, .NET CLR 2.0.50727, SE 2.X MetaSr 1.0)",
        "Mozilla/5.0 (iPhone, U, CPU iPhone OS 4_3_3 like Mac OS X, en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
        "MQQBrowser/26 Mozilla/5.0 (Linux, U, Android 2.3.7, zh-cn, MB200 Build/GRJ22, CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1" };

public static String getusergent() {
    Random rand = new Random();
    return agentarray[rand.nextInt(agentarray.length)];

}

3.数据库部分

在mysql 中创建表

选定数据库

执行sql

 CREATE TABLE `test` (
  `key` INT(11) UNSIGNED NOT NULL AUTO_INCREMENT,
  `id` INT(11) UNSIGNED NOT NULL,
  `title` VARCHAR(255) NOT NULL,
    `author` VARCHAR(255) NOT NULL,
  `date` VARCHAR(255) DEFAULT NULL,
  `category` VARCHAR(255) DEFAULT NULL,
  `header_image` VARCHAR(255) DEFAULT NULL,
  `content_image` VARCHAR(5000) NOT NULL,
  `content` TEXT DEFAULT NULL,
  `content_zh` TEXT DEFAULT NULL,
  `website` VARCHAR(255) DEFAULT NULL,
  `url` VARCHAR(255) DEFAULT NULL,
  PRIMARY KEY (`key`)
) ENGINE=INNODB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

手动把MYSQL 的connection jar包配置加进去。

创建对象对应字段 getset方法

image.png

创建数据库操作dao

public class Dao {

private Connection conn = null;
private Statement stmt = null;

public Dao() {
    try {
        Class.forName("com.mysql.jdbc.Driver");
        String url = "jdbc:mysql://localhost:3306/webmagic?user=root&password=000000&autoReconnect=true";
        conn = DriverManager.getConnection(url);
        stmt = conn.createStatement();
    } catch (ClassNotFoundException e) {
        e.printStackTrace();
        System.err.println(e.toString());
    } catch (SQLException e) {
        e.printStackTrace();
        System.err.println(e.toString());
    }

}

public int add(Info info) {

    System.err.println(info.toString());
    try {
        String sql = "INSERT INTO `webmagic`.`test` (`id`, `title`, `author`,`date`,  `category`, `header_image`, `content_image`, `content`,`content_zh`,  `website`, `url`) VALUES (?,?, ?, ?, ?, ?, ?,?,?, ?, ?);";
        PreparedStatement ps = conn.prepareStatement(sql);
        ps.setInt(1, info.getId());
        ps.setString(2, info.getTitle());
        ps.setString(3, info.getAuthor());
        ps.setString(4, info.getDate());
        ps.setString(5, info.getCategory());
        ps.setString(6, info.getHeader_image());
        ps.setString(7, info.getContent_image());
        ps.setString(8, info.getContent());
        ps.setString(9, info.getContent_zh());
        ps.setString(10, info.getWebsite());
        ps.setString(11, info.getUrl());
        return ps.executeUpdate();
    } catch (SQLException e) {
        System.out.println(e.toString());
        e.printStackTrace();
    }
    return -1;
}

}

其中两部分要注意：
1.mysql连接的语句 ip+port ,数据库名，用户密码，
当时直接网上抄，竟然是3307 端口，坑了一把。
2.插入SQL 要依次对应上数据库和数据库中的表名。

最后在解析数据之后，创建要保存的对象实例。使用dao的实例的add方法添加进去保存到数据库。

image.png

4.其他

同一个网站页面可能有多种样式，要对比区分，做到兼容。

2.采用设计模式归类能是结构更清晰，工厂模式、代理模式。

5.补充

2018年4月25日 17:10:41

1.对于 img :src 和img srcset 的曲折路程
部分图片可以直接解析 imgsrc 但是默认不是质量最佳的图

如

<a href=http://xxx.com//xx_1.jpg"><img width="250" height="188" src="http://xxx.com/xx_1-250x188.jpg" class="attachment-medium size-medium" alt="xxx." srcset="http://xxx.com/xx_1-250x188.jpg 250w, http://xxx.com/xx_1-500x375.jpg 500w, http://http://xxx.com/xx_1.jpg 700w" sizes="(max-width: 250px) 100vw, 250px"></a>

round 1

有些是默认最佳的图，有些是默认最后一个。于是一开始就选定srcset中最后一个

代码：

Elements gallery_items = page.select("div[id=gallery-1]").select("[class=gallery-item]");
for (Element item : gallery_items) {
       String[] srcset = item.select("[class=attachment-medium size-medium]").attr("abs:srcset").split(",");
      // do smt
    String url_0  = srcset[srcset.length - 1];
    String imgurl = url_0.substring(0, url_0.lastIndexOf(".") + 5).trim();// 考虑到 .jpeg的格式

 }

round 2

然后结果却发现部分图还是很小，结果却发现竟然有部分最佳质量图并不是在srcset 中最后一个，对比发现，大尺寸的图往往是没有最后的那个尺寸后缀，于是考虑找到最短那个就是最佳的图：

if (srcset.length > 0) {
    int p = srcset.length - 1;
    for (int i = 0; i < srcset.length; i++) {
    if (srcset[i].length() < srcset[p].length()) {
        p = i;// 记录地址长度最短坐标
            }

}

round 3

结果发现还是有部分很小，对比发现，srcset 中连接都是带尺寸的，大尺寸是800*1280 最大，长度也比别的长了一点，于是还要考虑到最短长度不是一个的时候。

 // 如果 最短的不是最后一个 则下错了 要重新下
if (p != srcset.length - 1) {
        // 如果最短的 有共同的长度 其他的 则需要判断最长的
  if (p > 0 && srcset[p].length() == srcset[p - 1].length()) {
           for (int i = 0; i < srcset.length; i++) {
        if (srcset[i].length() > srcset[p].length()) {
            p = i;// 记录地址长度最长
            }
        }
        }
    else if (p == 0 && srcset[0].length() == srcset[p + 1].length()) {
    for (int i = 0; i < srcset.length; i++) {
        if (srcset[i].length() > srcset[p].length()) {
            p = i;// 记录地址长度最长

            }
    }
}

String url_0 = srcset[p];

部分加载更多使用ajax 没有明确的页码
wordpress 框架可以直接在分类后加上/page/页码
在这种默认分类页的head 中有 next 页的连接

image.png

获取和解析方法：

        Document doc = page.getDoc();
        Elements kwMetas = doc.head().select("link[rel=next]");
        String nexturl= "";
        if (kwMetas != null && !kwMetas.isEmpty()) {
            Element kwMate = kwMetas.first();
            nexturl= kwMate.attr("href");
            next.add(nexturl);
            System.err.println("href---->" + nexturl);
        }

WebCollector 的爬虫使用笔记

1解析部分：

2 添加代理、User-Agent

3.数据库部分

4.其他

5.补充

round 1

round 2

round 3

推荐阅读更多精彩内容