一、简介
一款开源 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。可以爬取网页内容并提取数据,中文网站点这里 ,官网点这里 。
二、使用(android studio)
1、在module下添加库依赖
compile'org.jsoup:jsoup:1.10.2'
2、代码中使用的三种方式
a、直接解析HTML
(1)、Jsoup.parse()解析HTML.
(2)、获得Document对象
(3)、通过JS相关Api解析HTML文档,或者通过Jsoup的选择器解析文档
b、请求url并解析HTML
(1)、定义URL
(2)、请求网络Jsoup.connect()
(3)、解析HTML,步骤为a方式的(2)、(3)两个步骤。
c、加载文件(本地)并解析HTML
(1)、定义文件位置
(2)、加载文件Jsoup.parse(File in, String charsetName, String baseUri).
(3)、解析HTML步骤为a方式的(2)、(3)两个步骤。