几款常用的采集器优缺点

发源地云采集引擎

可能大部分人还不知道,这是我自主研发的,以前一直用爬虫写程序,java、python等,后面觉得很麻烦,就捣鼓着要做的简单一些,然后就没法收手了,最近一直在进行产品迭代。

优点:功能聚合性强、速度快、saas架构、数据可预览、数据规则市场、api等多种输出方式、免费。自动高效防屏蔽全球海量实时高匿IP自动切换,高效分布式节点策略无须代码轻松配置快速获取数据,实时自动更新数据精准完整获取目标数据,无缝对接自有系统支持多种CMS系统自动发布。

真正的云采集引擎,任何网站都可以采集,任何人都可以使用,海量数据市场。

缺点:知名度还比较低

ET工具

优点:无人值守,自动更新,适合长期做站,用户群主要集中在长期做站潜水站长。软件清晰,必备功能也很齐全,关键是软件免费,听说已经增加采集中英文翻译功能。

技术:论坛支持,软件本身免费,但是也提供收费服务。帮助文件较少,上手不容易

缺点:对论坛和CMS的支持一般

三人行

主要针对论坛的采集,功能比较完善

优点:还是针对论坛,适合开论坛的

技术:收费技术,免费有广告

缺点:超级复杂,上手难,对cms支持比较差

火车头

火车头应该是国内采集软件最成功的典型之一,使用人数包括收费用户数量上应该是最多的

优点:功能比较齐全,采集速度比较快,主要针对cms,短时间可以采集很多,过滤,替换都不错,比较详细;

技术:技术主要是论坛支持,帮助文件多,上手容易。有收费、免费版本

缺点:功能复杂,软件越来越大,比较占用内存和CPU资源,大批量采集速度不行,资源回收控制得不好,受CS架构限制

海纳

优点:海量,可以抓取网站很多一个关键词文章,似乎适合做网站的专题,特别是文章类、博客类

技术:无论坛 收费,免费有功能限制

缺点:分类不方便,也就说采集文章归类不方便,要手动(自动容易混淆),特定接口,采集的内容有限

狂人

优点:非常适合采集discuz论坛

缺点:过于专一,兼容性不好。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,179评论 25 708
  • 闲来无事,昨天又看了一遍印度电影《贫民窟的百万富翁》 影中的人贩子Maman在炎热的天气里,给贾马尔和萨利姆一人一...
    Dengshan登山阅读 5,801评论 0 3
  • 我想出去走走,没有行李箱,只一背包,带着手机和我的故事,一个人上路。 我想出去走走,也许烟花三月,也许十月金秋,没...
    c4e249d6df51阅读 288评论 0 0