采集系统

采集范围

 对互联网、内部网提供动态监视工具,实现增量采集和实时更新;
支持多语言网站信息采集;
支持但不限于新闻、微博、微信、博客、论坛、贴吧的信息采集和监控;
支持分页采集;
支持采集网页中的表格、列表等内容;
支持自定义采集流程,眼见即可采;

简单易用

 只需简单几步即可实现一站式采集、清洗、去重、存储、展示,省去开发时间

采集频率

支持分布式任务调度,定时任务采集,采集频率支持秒、分钟、小时、天、周、月等级别

数据处理及入库

支持采集链接去重,避免资源浪费
 数据提取支持字符串、时间、数字、HTML等格式
支持采集结果清洗、提取
 支持增量采集,结果去重、更新等
支持自定义采集存储配置,支持Mysql、MongoDB、Kafka消息队列,Elasticsearch搜索引擎

智能防封

支持模拟浏览器采集
支持采集UA切换、自动登录、避免重复登录、cookie管理
 支持反爬虫识别并自动切换代理
 支持扫码登录
 支持验证码自动识别
 支持自定义采集流程,可视化展现,适用复杂操作步骤的网站采集

采集监控

支持采集任务监控-启动、停止、采集量、剩余量
支持采集日志管理-日志图形展示
支持采集数据量监控(每日新增),站点采集量图形展示
支持采集数据报告,支持邮件监控报告和短信监控报告

部署方案

 支持私有化部署
 支持采集节点水平扩展,提供节点运行状态监控
 支持权限控制,自定义用户角色

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • title: Flume构建日志采集系统date: 2018-02-03 19:45tags: [flume,k...
    溯水心生阅读 16,174评论 3 25
  • 躺在床上一直思考我爸对我说的话,没被治愈,更添堵了。哎… 老爸在火车站等我良久,终于接到我了。看着夜色中他有些...
    没有段位的吐槽人阅读 140评论 0 0
  • 文/北貝 1.给挚爱一阵花香,给自己一个希望,这香或浓或淡,都是属于自己的静美。 2.一棵树长到它想长的高度后,它...
    北貝阅读 2,646评论 0 2
  • 在你的童年里 是否折过一只纸飞机 它倏地飞进家门前的小河里 再也无处寻觅 在你的少年里 是否曾偷偷看过某个女孩 她...
    想不焦虑的阿冰阅读 107评论 0 0
  • 和大家一样,忙! 我不是在教室,就是在去教室的路上。呵呵 有些人说:得关照一下自己。 我们就像陀螺一样不停地转动,...
    曾子玲阅读 250评论 0 2