大数据采集工具Visual Web Ripper 调研

天道酬勤

功能简介

Visual Web Ripper(VWR)是一个可视化的采集器,主要用对有规律的网页内容进行采集。VWR主要包含两个组件:Temples(模板)和Content(内容),Temples是我们要采集信息具有的规则,我们定义模板,采集器可以按照我们定义的模板采集,Content是我们要采集的内容,我们通过Point&Click来定义Temples和Content来进行采集。

功能特性

  1. The Project Editor
  2. Easily Capture Complete Content Structures
  3. Repeatedy Submit Web Forms
  4. Extract Data from Dynamic Websites
  5. Export Data to Almost anywhere
  6. Harvest Data Undected
  7. Schedule URL Scraping sessions
  8. Command-Line
  9. Deep Integration with APIs

功能演示

抓取mybabyname网站数据(演示特性1,2,4,5)

1. 添加gotoNames模板
添加gotoNames模板
2. 添加letters模板
添加letters模板
3. 添加names模板
添加names模板
4. 添加next模板
添加next模板
5. 添加对应names模板的name内容
image.png
6. 添加对应names模板的nameDetails模板
添加对应names模板的nameDetails模板
7. 添加对应nameDetails模板的meaning,origin,gender等内容
添加对应nameDetails模板的内容
8. 运行
运行程序

抓取百度明星列表数据并使用百度查找信息(演示特性1,2,3,4)

1. 添加明星user模板
添加明星user模板
2. 添加images模板和intru模板
添加images模板和intru模板
3. 点击上一步images模板的open添加images内容
添加images内容
4. 点击第二步intru模板的open添加intro内容
添加intro内容
5. 运行程序
运行程序
6. 查看采集过程及结果
采集过程
采集结果查看
支持导出的格式

CSV
excel
XML
PDF
MySQL
oracle
SQLite
Script

相关资料和网站

  1. http://visualwebripper.com/
  2. http://www.mybabyname.com/
  3. http://news.baidu.com/f/
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 14,225评论 4 61
  • Spring Boot 参考指南 介绍 转载自:https://www.gitbook.com/book/qbgb...
    毛宇鹏阅读 47,084评论 6 342
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,513评论 19 139
  • autoresizingMask无论是在storyboard中实现还是用代码实现,本质上来说就是六条线。 在sto...
    ForeverYoung21阅读 2,707评论 0 2
  • 习惯,当然是好的,正能量的,才能称之为习惯。你说抽烟喝酒烫头,也是好习惯,对不起,下文不适合你! 习惯之所以需要时...
    蜗牛up666阅读 1,202评论 0 0