web scraper入门

1.下载与安装

网页下载

网页下载

我的网盘分享(提取码n302)
此教程用的0.54版本，下载下来后自行解压然后进行安装步骤

安装步骤

1.打开Chrome浏览器，在网址框输入chrome://extensions打开拓展程序。

打开chrome拓展程序.png

2.打开chrome的开发者模式(浏览器右上角)。

打开开发者模式.png

3.点击左边的左边的【加载已解压的拓展程序】，然后选择刚才解压好的文件进行安装。

加载已下载到本地的程序.png

选择已解压文件夹.png

如果出现以下报错的情况，请打开那个文件夹，将其中的CRX文件拖拽到拓展程序中

加载报错.png

拖拽扩展程序.png

点击添加按钮.png

安装插件完成.png

安装完成之后可以点击右上角的拓展程序图标将其固定

固定拓展程序.png

到这里就其实已经完成了安装了，但是为了接下来的爬取工作能够更方便，还要对chrome的开发者工具的布局设置一下

点击chrome右上角那三个点展开下拉菜单，如图所示，打开开发者工具。

打开开发者工具

如果你的布局是这样的（在浏览器的右侧）：

开发者工具原始页面布局.png

那么就要将这个布局设置到浏览器的底部：

修改布局.png

全部设置完成之后，开发者工具中会出现web scraper，如果没有没有出现的话，请先将chrome关闭重新打开，就可以看到了。

全部设置完成后会出现该选项.png

2. 进行简单地抓取

创建一个爬取方法

创建sitemap.png

完成简单方法的创建.png

选项的具体含义

（1）selector - CSS 选择器选取所需元素
（2）multiple - 如果选择多个记录勾选此项。从两个或者多个选中multiple的选择器中提取的数据不会合并到一个单独记录。
（3）delay - 选择器生效前的延迟时长。
（4） parent selector - 为此选择器选择母选择器以产生选择器树形结构。
（5）Text selector - 文本选择器
（6）Link selector - 链接选择器
（7）Element selector - 元素选择器

规则设定.png

抓取规则设定

我这里准备爬取某东的一个页面上的好货推荐

爬取规则设置.png

保存之后就可以开始爬取了，爬取的时候要设置好响应时间

开始爬取.png

设置延时.png

然后就爬下来了（爬取完成后点击reflash按钮即可）

抓取的结果.png

3. 多页抓取

这里是对csdn上的官方博客进行抓取，网址是https://blog.csdn.net/blogdevteam/,但是这里不能直接使用这个地址，而是用其第二页的地址，然后再把地址最后的数字 2 修改为自己想要爬取的范围，我这里选择抓取的范围是 1 到 22 页。

地址注意事项.png

创建抓取方法，名字自己看着起就好，不影响抓取

多页抓取.png

创建抓取规则

这里保存后直接进行抓取就可以了

多页抓取规则设置.png

抓取的结果（非完整显示）

多页抓取结果.png

查看当前的抓取结构

查看抓取结构.png

当前的抓取结构.png

可以看到当前的抓取结构非常的简单

抓取更多的内容

这里我多抓取文章发表的时间，其他的你们想要抓取自己再尝试

时间规则.png

保存后就开始爬取，然后结果如下

多结构爬取.png

然后现在的爬取结构如下

添加时间规则后的爬取结构.png

导出爬取的数据

导出数据.png

下载数据.png

下载到本地.png

打开数据后的样子.png

如果出现你选择的元素比较多的话，推荐在根目录下创建一个容器来承载他们

创建elements.png

容器的选取范围.png

选取root作为elements的父选择器.png

选取elements作为title的父选择器.png

time同理.png

elements爬取后的结果.png

创建elements后的爬取结构.png

4. 多级数据抓取

创建新的抓取方法

名字懒得想了，网址是https://yunyaniu.blog.csdn.net/article/list/2,然后把 2 改为 1 到 5。爬取一个处女座程序猿的前5页的文章内容。

创建新的抓取方法.png

然后创建套娃的爬取结构，这里只创建两层，先创建第一层，如图

创建一级选择器.png

然后是第二层

创建二级选择器.png

最后创建在第二层中选择的爬取元素

爬取文章内容.png

此时形成的爬取结构是这样的

多级爬取结构.png

爬取结果（不完全展示）

多级爬取的结果.png