1.下载与安装
- 网页下载
网页下载
- 我的网盘分享(提取码n302)
此教程用的0.54版本,下载下来后自行解压然后进行安装步骤
-
安装步骤
1.打开Chrome浏览器,在网址框输入
chrome://extensions
打开拓展程序。
打开chrome拓展程序.png
2.打开chrome的开发者模式(浏览器右上角)。
打开开发者模式.png
3.点击左边的左边的【加载已解压的拓展程序】,然后选择刚才解压好的文件进行安装。
加载已下载到本地的程序.png
选择已解压文件夹.png
如果出现以下报错的情况,请打开那个文件夹,将其中的CRX文件拖拽到拓展程序中
加载报错.png
拖拽扩展程序.png
点击添加按钮.png
安装插件完成.png
安装完成之后可以点击右上角的拓展程序图标将其固定
固定拓展程序.png
到这里就其实已经完成了安装了,但是为了接下来的爬取工作能够更方便,还要对chrome的开发者工具的布局设置一下
-
点击chrome右上角那三个点展开下拉菜单,如图所示,打开开发者工具。
打开开发者工具
如果你的布局是这样的(在浏览器的右侧):
开发者工具原始页面布局.png
那么就要将这个布局设置到浏览器的底部:
修改布局.png
全部设置完成之后,开发者工具中会出现web scraper, 如果没有没有出现的话,请先将chrome关闭重新打开,就可以看到了。
全部设置完成后会出现该选项.png
2. 进行简单地抓取
-
创建一个爬取方法
创建sitemap.png
完成简单方法的创建.png
-
选项的具体含义
(1)selector - CSS 选择器选取所需元素
(2)multiple - 如果选择多个记录勾选此项。从两个或者多个选中multiple的选择器中提取的数据不会合并到一个单独记录。
(3)delay - 选择器生效前的延迟时长。
(4) parent selector - 为此选择器选择母选择器以产生选择器树形结构。
(5)Text selector - 文本选择器
(6)Link selector - 链接选择器
(7)Element selector - 元素选择器
规则设定.png
-
抓取规则设定
我这里准备爬取某东的一个页面上的好货推荐
爬取规则设置.png
保存之后就可以开始爬取了,爬取的时候要设置好响应时间
开始爬取.png
设置延时.png
然后就爬下来了(爬取完成后点击reflash按钮即可)
抓取的结果.png
3. 多页抓取
这里是对csdn上的官方博客进行抓取,网址是
https://blog.csdn.net/blogdevteam/
,但是这里不能直接使用这个地址,而是用其第二页的地址,然后再把地址最后的数字 2 修改为自己想要爬取的范围,我这里选择抓取的范围是 1 到 22 页。
地址注意事项.png
-
创建抓取方法,名字自己看着起就好,不影响抓取
多页抓取.png
-
创建抓取规则
这里保存后直接进行抓取就可以了
多页抓取规则设置.png
-
抓取的结果(非完整显示)
多页抓取结果.png
-
查看当前的抓取结构
查看抓取结构.png
当前的抓取结构.png
可以看到当前的抓取结构非常的简单
-
抓取更多的内容
这里我多抓取文章发表的时间,其他的你们想要抓取自己再尝试
时间规则.png
保存后就开始爬取,然后结果如下
多结构爬取.png
然后现在的爬取结构如下
添加时间规则后的爬取结构.png
-
导出爬取的数据
导出数据.png下载数据.png下载到本地.png打开数据后的样子.png
-
如果出现你选择的元素比较多的话,推荐在根目录下创建一个容器来承载他们
创建elements.png容器的选取范围.png选取root作为elements的父选择器.png选取elements作为title的父选择器.pngtime同理.pngelements爬取后的结果.png创建elements后的爬取结构.png
4. 多级数据抓取
-
创建新的抓取方法
名字懒得想了,网址是
https://yunyaniu.blog.csdn.net/article/list/2
,然后把 2 改为 1 到 5。爬取一个处女座程序猿的前5页的文章内容。
创建新的抓取方法.png
然后创建套娃的爬取结构,这里只创建两层,先创建第一层,如图
创建一级选择器.png
然后是第二层创建二级选择器.png
最后创建在第二层中选择的爬取元素
爬取文章内容.png
此时形成的爬取结构是这样的
多级爬取结构.png
爬取结果(不完全展示)
多级爬取的结果.png
解释一下上面的东西:第一层也是就我们创建的root是一个容器,它装载的所页面中所有的文章标题(h4 a),然后第二层是把第一层的东西(也就是文章标题)当做一个一个链接,这样就可以点进去,最后一层点进链接后的页面,然后选取的文章正文爬取下来
root选取的内容.png
然后第二层就把它作为一个链接点击去,然后下面就是爬取的内容
content.png
好了暂时先写这么多吧,有什么不对的,欢迎一起讨论,毕竟我也刚学,动手实战能够学得更快,大家加油。