集搜客GooSeeker
使用集搜客不需要编程语言的基础,将要抓取的特定字段映射到工作台,建立好采集的规则,就能轻松将数据采集成功,整个过程简单明了。
集搜客的特色是爬虫群功能,功能非常强大,可以直接在会员中心控制采集数量,控制采集时间,同时可以用多个爬虫采集同一网址,防止采集过于频繁IP被封,又能保证采集的速度,同时采集的数据可以直接入库,并导出,关键是集搜客还不限制采集的深度和广度,想多少采集多少。
八爪鱼
八爪鱼有个优点,可以下载现成的采集规则,如果不会写规则, 就直接用别人写的规则就好了, 进一步降低了使用爬虫的门槛。
网络矿工
网络矿工是一款基于C#开源的网络爬虫工具,注意,是开源。网络矿工遵循BSD开源协议,具备完整的UI交互、线程管理、采集匹配等,用户可以基于此扩展属于自己的采集器,而不受任何限制。
火车头
火车头采集器界面比较清爽,并且内置了好几款皮肤,视觉效果不错。采集器内置了一些常用网站的采集规则,内容以门户网站为主,感觉用处不是太大。
采集规则流程倒是蛮清晰的,自动获取地址链接也足够方便,缺点是一些结构复杂的页面无法获取到信息。
神箭手平台
神箭手平台和以上工具都不太一样,它是一个开发爬虫的平台,你可以自己开发爬虫并将爬虫托管到云端。
神箭手的一些特性非常符合潮流,比如防屏蔽、开放的接口、图标分析功能,换句话说这其实已经是个开发工具了。
更重要的是,它是一个爬虫市场,你可以出售自己的爬虫,或者在平台上购买需要的爬虫,这对于广大爬虫爱好者来说,多了一个交流和变现的途径。