天道酬勤
功能简介
Visual Web Ripper(VWR)是一个可视化的采集器,主要用对有规律的网页内容进行采集。VWR主要包含两个组件:Temples(模板)和Content(内容),Temples是我们要采集信息具有的规则,我们定义模板,采集器可以按照我们定义的模板采集,Content是我们要采集的内容,我们通过Point&Click来定义Temples和Content来进行采集。
功能特性
- The Project Editor
- Easily Capture Complete Content Structures
- Repeatedy Submit Web Forms
- Extract Data from Dynamic Websites
- Export Data to Almost anywhere
- Harvest Data Undected
- Schedule URL Scraping sessions
- Command-Line
- Deep Integration with APIs
功能演示
抓取mybabyname网站数据(演示特性1,2,4,5)
1. 添加gotoNames模板
2. 添加letters模板
3. 添加names模板
4. 添加next模板
5. 添加对应names模板的name内容
6. 添加对应names模板的nameDetails模板
7. 添加对应nameDetails模板的meaning,origin,gender等内容
8. 运行
抓取百度明星列表数据并使用百度查找信息(演示特性1,2,3,4)
1. 添加明星user模板
2. 添加images模板和intru模板
3. 点击上一步images模板的open添加images内容
4. 点击第二步intru模板的open添加intro内容
5. 运行程序
6. 查看采集过程及结果
支持导出的格式
CSV
excel
XML
MySQL
oracle
SQLite
Script