Jsoup爬虫

Jsoup的使用

(1)获取HTML

jsoup提供两种网络请求,get和post,使用代码也及其简单,我们首先爬取糗事百科首页的HTML。注意:由于是网络请求操作,必须放在子线程中运行,否则4.4以上的版本会报错。

① get方式

② post方式

这里对post的参数介绍一下
connect:设置连接的Url

data:设置post的键值对数据

userAgent:设置用户代理(请求头的东西,可以判断你是PC还是Mobile端)

cookie:设置缓存

timeout:设置请求超时

post:发送post请求

既然已经获取HTML的Document对象了,接下来就是分析Html元素的时候了

(2)获取Html元素

① 网页端

以糗事百科为例子,我们查看糗事百科首页的数据对应的Html元素是什么,我们可以通过F12,找到对应的Html元素

可以看到一个a标签就是文章详情的内容,我们可以通过这个a标签的class=”contentHerf”作为唯一标识来获取该链接,获取之后,继续爬取详情页的文章详细内容,所以我们通过爬取的a标签的链接进入该文章的详情页

当然也有一些详情页有图片的,我们可以通过图片的的class=”thumb”作为唯一标识来爬取图片里面的链接

由于糗事百科采用分页加载的情况,我们需要在爬取完第一张内容后,接着爬取第二章的内容,下面是糗事百科的分页Url的规则,很简单,我们可以通过一个循环就可以了。
http://www.qiushibaike.com/8hr/page/1/http://www.qiushibaike.com/8hr/page/2/http://www.qiushibaike.com/8hr/page/3/http://www.qiushibaike.com/8hr/page/4/http://www.qiushibaike.com/8hr/page/5/

好了,分析完网页端之后,就应该在我们的Android端采用代码,将上面的步骤实现出来了。

(3)Android端实现

通过上面的分析后,可以总结我们需要实现的步骤有:
爬取主页的详情页url

1 进入详情页爬取内容和图片

2 循环爬取第二页、第三页…

聪明的你,可能会想到第四步第五步…
1 封装Bean对象

2 使用ListView填充内容

3 爬取日期、作者、评论等内容完善项目

1) 爬取主页的详情页url

爬取主页的url可以通过a标签的class=”contentHerf”,我们通过jsoup的属性选择器来实现,这里会用到css知识,jsoup中文文档也有很详细的介绍

这里对使用到的对象进行介绍

  • Document:相当于一个Html文件

  • Elements:相当于一个标签的集合

  • Element:相当于一个标签

这里要注意Elements与Element的toString()方法和text()方法

  • toString():打印出来的是标签的Html内容

  • text():打印出来的是(<span>)标签对应的文本内容

css选择器

  • select():Document、Elements共同拥有的方法,获取符合属性选择器要求的标签内容(什么是标签?)

document.select(".thumb img[src$=jpg]") 表示获取thumb标签下的img标签

  • 或getElementById:获取符合ID选择器要求的标签内容

  • 或getElementsByTag:获取符合Tag选择器要求的标签内容

  • ele.attr("xxx"):根据标签的属性获取标签的内容

2) 进入详情页爬取内容和图片
这段代码也相当简单,这里就不多解释了

3) 循环爬取第二页、第三页…
这里只需要嵌套一个循环进去就可以了,完整代码如下

4) 当然,我们爬取到的内容之后,毫无疑问就是要封装成对象,通过ArrayList存储起来,这样你的数据源就解决了
public class Xiaohua { private String content; private String title; private String url; private String userName; private String date;}

5) 后面爬取作者、日期、评论等信息就由你们去练习了,然后界面一仿,项目就出来了

[原文](http://blog.csdn.net/qq_30379689/article/details/55005796

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 前言 闲扯一些没用的,写这篇文章之前是有点私心的,因为之前评论某简书大v的文章是鸡汤,瞬间被拉黑,连个解释和说明的...
    小时不识月z阅读 2,184评论 3 10
  • jsoup其实只是一种网页分析器,帮助java程序员进行网页元素分析,其代替了用正则表达式去匹配信息的方式,效率更...
    bingoc阅读 4,048评论 0 10
  • 昨天LZ去面试,遇到一个大牛,被血虐一番,发现自己基础还是很薄弱,对java一些原理掌握的还是不够稳固,比如jav...
    下位子阅读 3,412评论 33 46
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,213评论 25 708
  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,105评论 45 523