Java爬虫系列三：使用Jsoup解析HTML

在上一篇随笔《Java爬虫系列二：使用HttpClient抓取页面HTML》中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html，今天接着来看下爬虫的第二步--解析抓取到的html。

有请第二步的主角：Jsoup粉墨登场。

一、Jsoup自我介绍

大家好，我是Jsoup。

我是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据，用Java写爬虫的同行们十之八九用过我。为什么呢？因为我在这个方面功能强大、使用方便。不信的话，可以继续往下看，代码是不会骗人的。

二、Jsoup解析html

上一篇中，HttpClient大哥已经抓取到了博客园首页的html，但是一堆的代码，不是程序员的人们怎么能看懂呢？这个就需要html解析专家出场了。

下面通过案例展示如何使用Jsoup进行解析，案例中将获取博客园首页的标题和第一页的博客文章列表

请看代码（在上一篇代码的基础上进行操作，如果还不知道如何使用httpclient的朋友请跳转页面进行阅读）：

引入依赖

<groupId>org.jsoup</groupId>

<artifactId>jsoup</artifactId>

</dependency>

实现代码。实现代码之前首先要分析下html结构。标题是<title>不用说了，那文章列表呢？按下浏览器的F12，查看页面元素源码，你会发现列表是一个大的div，id="post_list",每篇文章是小的div,class="post_item"

接下来就可以开始代码了，Jsoup核心代码如下：

/**

* 下面是Jsoup展现自我的平台

//6.Jsoup解析html

Document document = Jsoup.parse(html);

//像js一样，通过标签获取title

System.out.println(document.getElementsByTag("title").first());

//像js一样，通过id 获取文章列表元素对象

Element postList = document.getElementById("post_list");

//像js一样，通过class 获取列表下的所有博客

Elements postItems = postList.getElementsByClass("post_item");

//循环处理每篇博客

for (Element postItem : postItems) {

//像jquery选择器一样，获取文章标题元素

Elements titleEle = postItem.select(".post_item_body a[class='titlelnk']");

System.out.println("文章标题:" + titleEle.text());;

System.out.println("文章地址:" + titleEle.attr("href"));

//像jquery选择器一样，获取文章作者元素

Elements footEle = postItem.select(".post_item_foot a[class='lightblue']");

System.out.println("文章作者:" + footEle.text());;

System.out.println("作者主页:" + footEle.attr("href"));

System.out.println("*********************************");

}

根据以上代码你会发现，我通过Jsoup.parse(String html)方法对httpclient获取到的html内容进行解析获取到Document，然后document可以有两种方式获取其子元素：像js一样可以通过getElementXXXX的方式和像jquery 选择器一样通过select()方法。无论哪种方法都可以，我个人推荐用select方法处理。对于元素中的属性，比如超链接地址，可以使用element.attr(String)方法获取，对于元素的文本内容通过element.text()方法获取。

执行代码，查看结果（不得不感慨博客园的园友们真是太厉害了，从上面分析首页html结构到Jsoup分析的代码执行完，这段时间首页多了那么多文章）

三、Jsoup的其他用法

我，Jsoup，除了可以在httpclient大哥的工作成果上发挥作用，我还能自己独立干活，自己抓取页面，然后自己分析。分析的本领已经在上面展示过了，下面来展示自己抓取页面，其实很简单，所不同的是我直接获取到的是document，不用再通过Jsoup.parse()方法进行解析了。

除了能直接访问网上的资源，我还能解析本地资源：

代码：

public static void main(String[] args) {

try {

Document document = Jsoup.parse(new File("d://1.html"), "utf-8");

System.out.println(document);

} catch (IOException e) {

e.printStackTrace();

}

四、Jsoup另一个值得一提的功能

你肯定有过这种经历，在你的页面文本框中，如果输入html元素的话，保存后再查看很大概率会导致页面排版乱七八糟，如果能对这些内容进行过滤的话，就完美了。

刚好我Jsoup就能做到。

public static void main(String[] args) {

String unsafe = "<a href='网址' onclick='stealCookies()'>博客园</a>";

System.out.println("unsafe: " + unsafe);

String safe = Jsoup.clean(unsafe, Whitelist.basic());

System.out.println("safe: " + safe);

}

通过Jsoup.clean方法，用一个白名单进行过滤。执行结果：

unsafe: <a href='网址' onclick='stealCookies()'>博客园</a>

safe: <a rel="nofollow">博客园</a>

五、结束语

不仅可以解析HttpClient抓取到的html元素，自己也能抓取页面dom，还能load并解析本地保存的html文件。

此外，还能通过一个白名单对字符串进行过滤，筛掉一些不安全的字符。

最最重要的，上面所有功能的API的调用都比较简单。

Java爬虫系列三：使用Jsoup解析HTML