1.jsoup简要介绍
jsoup 是一款用Java语言实现的的HTML工具,它提供了一套非常方便的API用于HTML的数据的操作和抽取,其最优美和强大的地方就是DOM选择器部分。相较于HtmlUnit,在选择器使用上jsoup真的是要好上太多。要想学习和使用jsoup,强烈建议您阅读官方文档。
jsoup网站:jsoup.org
2.jsoup示例程序
本程序的主要功能是利用jsoup连接某报纸电子版某天的头版页面,解析其版面目录并取得广告版的地址,连接并解析广告版页面,并将其广告图片以日期和版号命名保存到E盘的paper目录下。本程序除用到了jsoup的JAR包以外,还用到了apahce的Lang和IO两个JAR工具包,分别用来修剪字符串(trim)和拷贝图片到本地(copyURLToFile)。你可以利用maven引入JAR包,也可以自行下载JAR到类目录下。
jsoup下载地址:jsoup-1.10.2.jar
commons下载地址:Apache Commons
maven依赖:
示例程序:
3.简要补充
程序的关键部分在于对Dom文档部分的选择,即doc.select("div[class=right_title-name] a"),通过变换不同的表达式从而取得Dom的不同部分。
为表达方便,示例程序中把日期写死在程序里面,如果想取得所有日期的数据,遍历日期即可达到目的,即DateFormatdf1=newSimpleDateFormat("yyyy-MM/dd")。
从以上程序不难看出JSOUP选择器是多么的简捷和美丽。
本示例程序只是为学习和交流,不能用于其它目的,下载的广告图片版权归属原单位。