我们抓取数据时,有时候碰到翻页的情况,插件对于翻页处理有2种方式
第一种规律分页:
翻页时会碰到url规律变化的情况
比如企查查中搜索框带科技的企业,抓取10页的企业名录
企查查科技企业
第1页:https://www.qichacha.com/search?key=科技#p:1&
第2页:https://www.qichacha.com/search?key=科技#p:2&
第3页:https://www.qichacha.com/search?key=科技#p:3&
第N页:https://www.qichacha.com/search?key=科技#p:n&
所以我们在创建sitemap url的时候在变量这里 我们写[1-N] 10页就是 [1-10]
然后增加text selector
查看数据格式
具体url要具体分析,下面给了一些示例
百度贴吧:
http://tieba.baidu.com/f/index/forumpark?pcn=%E5%A8%B1%E4%B9%90%E6%98%8E%E6%98%9F&pci=0&ct=1&rn=20&pn=[1-n]
赶集网:http://bj.ganji.com/zpshichangyingxiao/o[1-n]/
知乎某用户所有文章:https://www.zhihu.com/org/jing-du-jun-8/posts?page=[1-n]
虎扑步行街:https://bbs.hupu.com/bxj-[1-n]
如何进行翻页多字段抓取?
第二种:
一些网站翻页时url不会变,或者存在一些点击加载更多的情况
例如taptap手游排行榜
抓取该排行榜的游戏和名次
-
首先创建 Element click selector
-
然后创建子级selector 标题和排名
标题
排名
保存selector
查看抓取到的数据 150条数据全部抓取完毕了
父级Element click selector 是无法抓取到真实数据的,一定要 text selector或者 link selector 才能抓取到真实数据
总结
遇到分页需求分析链接地址
链接地址变化,创建sitemap时更换sitemap多页面链接一般表现形式为[1-n]
链接地址不变,使用Element click selector选择器 进行翻页数据获取
问题?
一些下滑到页面底部才加载内容的网站怎么爬取?