迷你采集器

什么是规则?

规则是一系列采集动作的集合,迷你派采集器的规则由节点组成,每个节点告诉采集器如何操作和采集当前所在网页。

例如:

以下规则有3个节点:开始、搜索结果和详细信息。

1

什么是节点?

节点是NDS预先包装好的一组指令,用于完成特定的任务。

为了简化规则开发和数据采集,NDS提供了3类节点:关联节点、列表节点和详情节点。组合这3类节点既可以定义采集规则。

 关联节点

关联节点由一系列动作组成,这些动作将按顺序执行。通常,我们使用关联节点来新打开一个网址、提交搜索以准备搜索结果页或为下一个节点做一些准备。

关联节点从上到下逐一执行操作。在遇到 >由此进入下一个节点< 动作时,关联节点将立即进入下一个节点,并在完成所有后续节点的任务后,再续执行本关联节点剩余的操作。 如果本关联节点中没有>由此进入下一个节点<,则将在执行完所有操作后自动进入下一个节点。

列表节点

列表节点用来处理一页中重复结构的数据采集.

例如:

一个表中的多行

电商商品列表页中的多个商品信息

搜索结果页中的多个搜索结果项

所有这些页面都有一个公共特点:其中有多个结构或布局相似的块,每个块都包含类似的字段,如标题、价格、简要描述等。

以Google Map搜索结果为例:

BlocksFields

在这里,左侧突出显示的每个餐厅都是一个块,块中的餐厅名称作为字段突出显示。直观一点理解: 块类似于采集结果中的行, 而块中的字段类似于每一行中的单元格的值。

网站通常通过鼠标向下滚动或单击翻页按钮显示更多块。

列表节点有 3 个选项卡:数据、分页和导航。

数据选项卡:

用来声明块和字段,以及在每个块处理之前执行的任何动作

分页选项卡

声明如何装载更多的列表和列表块,并在加载新页面/列表之前执行的动作

导航选项卡

宣布如何导航到下一个节点

 详情节点

与列表节点不同,详细节点从当前页面采集一次性内容。(则与页面的类型无关, 可以从列表页面中采集一次性的内容)

在列表节点和详情节点中,您可以通过点击"节点名称"之后的大头针图标 (

) ,将当前页面与节点建立关联。 而后通过单击或自动导航到本节点时,浏览器会自动加载节点关联的页面。

2

创建规则后,规则可以被反复执行。迷你派采集器会按规则中声明的节点逐个执行所有的动作。

例如,有一个电子商务网站。您希望通过关键字搜索,而后采集搜索结果列表上的所有商品。

相应的创建规则如下:

以下是迷你派采集器处理规则的过程:

3

数据转换

定位元素并声明属性后,NDS 从目标元素中提取内容。 但有时您可能希望在保存到输出表之前转换内容。 例如,删除一些多余的前缀,或替换一些文本。 NDS 提供了丰富的内置转换器,让您可以编写自己的正则表达式来灵活处理内容。 点击各字段属性框后的预览变换图标(

) 在每个字段的属性框之后,会弹出预览和转换对话框。

构建数据转换:

正则模板内容抽取 它提供了各种内置的正则表达式来提取内容。 例如:

整数: 仅从内容中提取整数

数值: 从内容中提取所有数字和点

邮箱地址

IPv4地址

IPv6地址

URL网址

美国手机号码格式

英国手机号码格式

大陆手机号码格式

大陆带区号的手机号码格式

各种各样的日期格式

美国SSN号格式

大陆身份证号格式

台湾身份证号格式

美国邮编格式

英国邮编格式

简单内容抽取 如果内置的正则表达式没有适合您的,并且你没有正则表达式技巧,您可以使用简单抽取来实现基本的内容抽取

例如,我们只是告诉 NDS 提取 '$' 和 '.' 之间的内容。

手动正则表达式抽取 如果您有正则表达式技能,您可以在此处写自己的抽取正则表达式。

正则模板内容替换 选择一个内置的正则表达式,并告诉要替换的内容。 NDS 将用您的内容替换所有匹配的内容。

简单内容替换 如果没有合适的内置替换正则表达式,并且你没有正则表达式技巧,你可以使用简单替换来实现一些基本的替换。

手动正则表达式替换 如果您有正则表达式技能,您可以在此处编写自己的替换正则表达式。

添加文字 该操作有助于在指定位置插入一些文本。

您可以添加多个数据转换。 内容会以pipeline的方式进行转换,并返回最终结果。

在这里单击“预览”按钮可以预览转换结果。

重复数据删除

重复数据删除是指过滤掉爬取过程中可能遇到的重复数据。

创建新的输出表时,您可以选择一个或多个字段作为主键,以过滤重复项。 在屏幕截图中,我们选择“名称”和“链接”字段作为主键。

在 NDS 中,每个数据表可以接受多个规则来存储抓取的数据。 配置的 unqiue 字段用作所有规则的过滤器,这些规则将数据保存到表中。

一旦数据表配置了唯一字段,您将无法再次对其进行编辑。 要更改唯一字段,您可以重命名“保存到”以创建一个新表并在规则保存对话框中为该表设置新的主键。

注意: 启动时更改输出数据表名称不会影响唯一字段。 旧的唯一字段(如果存在)将自动应用于新数据表。


定时抓取

在 NDS 中定期运行规则很容易。 您需要的是在保存规则或启动规则时选择频率。

触发器

NDS 支持许多内置触发器和 JS 触发器。 后者使您可以定义触发后要执行的操作。

内置触发器

触发器描述

输出行一旦'If'条件为真,将当前行保存到输出表,否则该行被忽略

不输出行一旦 'If' 条件为真,则忽略当前行,否则该行将保存到输出表中

输出行前合并字段一旦'If'条件为真,将指定字段合并为一个新字段

输出行并结束一旦'If'条件为真,保存该行,并结束配方; 否则保存该行并继续抓取

不输出行并结束一旦'If'条件为真,忽略该行,并结束配方; 否则继续照常

输出行,结束并启动新规则一旦'If'条件为真,保存该行,结束配方并开始指定的规则; 否则保存该行并继续抓取

不输出行,结束并启动新规则一旦'If'条件为真,忽略该行,结束配方并开始指定的配方; 否则继续抓取

结束后启动新规则当配方结束时,启动指定的配方

JS触发器

即将推出

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,458评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,030评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,879评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,278评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,296评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,019评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,633评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,541评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,068评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,181评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,318评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,991评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,670评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,183评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,302评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,655评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,327评论 2 358

推荐阅读更多精彩内容