crawler4j爬虫技术获取a标签的title及链接

准备把一些之前觉得不错的代码带到简书来:

最近的项目用到了爬虫技术,这里主要说明下crawler4j技术的获取对应的标签的链接及title的实现:

首先是抓取类: 

1、必须继承于WebCrawler,实现shouldVisit和visit两个方法。 

2、使用一个入口类进行采集任务,并进行处理。

代码可以参考这里:

https://blog.csdn.net/u010172714/article/details/50353987


刚才的这一部分

String content = parseData.getHtml();// 链接内容

String htmlTitle = parseData.getTitle();//链接的title

就是获取当前页面的title属性的方法。

使用这个就能获取到a标签里的title,而不是网页上所截取的标题anchor这个就是网页上显示什么就会展示什么的属性!

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 第一部分 HTML&CSS整理答案 1. 什么是HTML5? 答:HTML5是最新的HTML标准。 注意:讲述HT...
    kismetajun阅读 27,610评论 1 45
  • HTML标签解释大全 一、HTML标记 标签:!DOCTYPE 说明:指定了 HTML 文档遵循的文档类型定义(D...
    米塔塔阅读 3,310评论 1 41
  • 懒惰的人总有方法不让自己去做简单、重复的事情。 缘由 今天是3月10号,是绍兴市上虞区教育体育局发布2017年绍兴...
    Yet_land阅读 4,956评论 1 13
  • 【威哥说】在上了床不一定有结果的时代,总是有人在叫嚣没有真情,不是没有真情,只不过是被繁华迷了眼,不懂珍惜而已。以...
    磨砺营阅读 270评论 0 2
  • (翻腾老物件,翻出一本老笔记本,这是40多年前专门为记录一个事件而买的硬皮笔记本,我那时在农村插队,干两天的价值才...
    暖水瓶dsy阅读 165评论 2 2