用JSOUP抓取某报广告版,很美的JSOUP选择器

1.jsoup简要介绍

jsoup 是一款用Java语言实现的的HTML工具,它提供了一套非常方便的API用于HTML的数据的操作和抽取,其最优美和强大的地方就是DOM选择器部分。相较于HtmlUnit,在选择器使用上jsoup真的是要好上太多。要想学习和使用jsoup,强烈建议您阅读官方文档。

jsoup网站:jsoup.org

www.jsoup.org

2.jsoup示例程序

本程序的主要功能是利用jsoup连接某报纸电子版某天的头版页面,解析其版面目录并取得广告版的地址,连接并解析广告版页面,并将其广告图片以日期和版号命名保存到E盘的paper目录下。本程序除用到了jsoup的JAR包以外,还用到了apahce的Lang和IO两个JAR工具包,分别用来修剪字符串(trim)和拷贝图片到本地(copyURLToFile)。你可以利用maven引入JAR包,也可以自行下载JAR到类目录下。

jsoup下载地址:jsoup-1.10.2.jar

commons下载地址:Apache Commons

maven依赖:

maven依赖

示例程序:

jsoup示例程序

3.简要补充

程序的关键部分在于对Dom文档部分的选择,即doc.select("div[class=right_title-name] a"),通过变换不同的表达式从而取得Dom的不同部分。

为表达方便,示例程序中把日期写死在程序里面,如果想取得所有日期的数据,遍历日期即可达到目的,即DateFormatdf1=newSimpleDateFormat("yyyy-MM/dd")。

从以上程序不难看出JSOUP选择器是多么的简捷和美丽。

本示例程序只是为学习和交流,不能用于其它目的,下载的广告图片版权归属原单位。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,800评论 19 139
  • Spring Boot 参考指南 介绍 转载自:https://www.gitbook.com/book/qbgb...
    毛宇鹏阅读 47,118评论 6 342
  • 九月:故乡的秋叶红 田秀 翻过了那座山伊想到了故乡的九月 九月的秋叶下站着一排童年的兄弟们 争着欣赏风从秋叶面上...
    兴安居士阅读 2,425评论 0 2
  • 流行了数年的复古砖搭配花砖,艺术感十足!特别受年轻人的青睐,每寸花砖纹理上都具有其特殊的美感和造型,美爆了您...
    布丁一Sandra阅读 2,790评论 0 0
  • 明明知道是你 我却偷偷躲起来 害怕失去了你 时间的流失 以为能够洗去一切的伤痛 然而大错特错 留下悲伤的眼泪 假如...
    我爱吃任何鱼阅读 1,059评论 0 2