RuiJi Scraper 分页抽取

如果想抽取分页结,您需要在规则配置中配置分页选择器,分页选择器位于规则编辑器最下方,如图所示

请注意以下分页选择器的配置要求

1.  分页选择器的默认名称为_paging,请不要修该名称

2. 分页选择器要求选择出的结果为链接地址

下面我们以百度新闻的搜索结果为例举例说明下分页选择的配置

首先观察下分页的形式,具有数字分页链接及上一页下一页的链接

我们需要提取出所有的地址,并排除掉上一页及下一页的超链接

最终的分页抽取器配置如下

如上选择器的解释为

1. 选择#page 元素的外部html源码

2. 排除带有class为n的a标签,并选择外部html(排除上一页及下一页的链接地址)

3. 选择a标签的href属性的值作为输出结果

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1、通过CocoaPods安装项目名称项目信息 AFNetworking网络请求组件 FMDB本地数据库组件 SD...
    阳明AI阅读 16,024评论 3 119
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,926评论 25 709
  • 用两张图告诉你,为什么你的 App 会卡顿? - Android - 掘金 Cover 有什么料? 从这篇文章中你...
    hw1212阅读 13,079评论 2 59
  • 因为约评了一本漫画《酝酿之道:当漫画遇到葡萄酒》所以申请了简书,之前也写过一些书评,读过的书也都是标记在豆瓣,现在...
    ashesdan阅读 511评论 0 0
  • 关于钻孔灌注桩钢筋问题 施工方:箍筋用三级钢是否搞错?箍筋基本用的一级钢。 设计:建议箍筋用三级钢 我稍微查阅了下...
    一平啊啊啊阅读 253评论 0 0