上一节我们拆解了抓取数据的基本步骤,
这一小节我们来认识一下webscraper这个插件的各个选项和按钮
首先要知道我们创建的一个抓取数据的工程就是一个sitemap对象
主页面
- 1 Sitemaps: 该页面记录了我们创建的所有的sitemap工程目录
- 2 sitemap: 在Sitemaps中点击单个sitemap工程我们就可以编辑每个sitemap工程,具体有以下几个选项:
Selectors: 当前sitemap的数据选择区域
Selectors graph:当前sitemap选择器的图结构
Edit metadata:编辑当前sitemap的源数据(主要包括sitemap名称和爬取的url)
Scrape:启动sitemap工程进行抓取数据
Browse: --
Export Sitemap: 当我们编写好了sitemap之后可导出当前工程的配置文件
Export data as CSV: 当sitemap工程抓取完之后,通过此选项导出CSV(excel文件)
- 3 Create new sitemap: 新建sitemap工程,既可以直接新建工程也可以直接使用别人的sitemap配置。
Create Sitemap:创建新的sitemap
Sitemap name:你的新sitemap的名称
Start url: 要抓取的网站的链接,直接从浏览器复制粘贴进去
import Sitemap:导入其他的sitemap配置文件
主页面基本上就这些元素,在后面的教程示例中我们会用到这些内容,用几次就熟悉了。
接下来我们用几个例子来带你熟悉这个插件的神奇之处