web scraper入门

1.下载与安装

  • 安装步骤

1.打开Chrome浏览器,在网址框输入chrome://extensions打开拓展程序。

打开chrome拓展程序.png

2.打开chrome的开发者模式(浏览器右上角)。


打开开发者模式.png

3.点击左边的左边的【加载已解压的拓展程序】,然后选择刚才解压好的文件进行安装。

加载已下载到本地的程序.png

选择已解压文件夹.png

如果出现以下报错的情况,请打开那个文件夹,将其中的CRX文件拖拽到拓展程序中
加载报错.png

拖拽扩展程序.png

点击添加按钮.png

安装插件完成.png

安装完成之后可以点击右上角的拓展程序图标将其固定
固定拓展程序.png

到这里就其实已经完成了安装了,但是为了接下来的爬取工作能够更方便,还要对chrome的开发者工具的布局设置一下

  • 点击chrome右上角那三个点展开下拉菜单,如图所示,打开开发者工具。
  • 打开开发者工具

    如果你的布局是这样的(在浏览器的右侧):


    开发者工具原始页面布局.png

    那么就要将这个布局设置到浏览器的底部:


    修改布局.png

全部设置完成之后,开发者工具中会出现web scraper, 如果没有没有出现的话,请先将chrome关闭重新打开,就可以看到了。

全部设置完成后会出现该选项.png

2. 进行简单地抓取

  • 创建一个爬取方法
创建sitemap.png

完成简单方法的创建.png
  • 选项的具体含义

(1)selector - CSS 选择器选取所需元素
(2)multiple - 如果选择多个记录勾选此项。从两个或者多个选中multiple的选择器中提取的数据不会合并到一个单独记录。
(3)delay - 选择器生效前的延迟时长。
(4) parent selector - 为此选择器选择母选择器以产生选择器树形结构。
(5)Text selector - 文本选择器
(6)Link selector - 链接选择器
(7)Element selector - 元素选择器


规则设定.png
  • 抓取规则设定

我这里准备爬取某东的一个页面上的好货推荐

爬取规则设置.png

保存之后就可以开始爬取了,爬取的时候要设置好响应时间


开始爬取.png

设置延时.png

然后就爬下来了(爬取完成后点击reflash按钮即可)


抓取的结果.png

3. 多页抓取

这里是对csdn上的官方博客进行抓取,网址是https://blog.csdn.net/blogdevteam/,但是这里不能直接使用这个地址,而是用其第二页的地址,然后再把地址最后的数字 2 修改为自己想要爬取的范围,我这里选择抓取的范围是 1 到 22 页。

地址注意事项.png

  • 创建抓取方法,名字自己看着起就好,不影响抓取
多页抓取.png
  • 创建抓取规则

这里保存后直接进行抓取就可以了


多页抓取规则设置.png
  • 抓取的结果(非完整显示)
多页抓取结果.png
  • 查看当前的抓取结构
查看抓取结构.png

当前的抓取结构.png

可以看到当前的抓取结构非常的简单

  • 抓取更多的内容

这里我多抓取文章发表的时间,其他的你们想要抓取自己再尝试


时间规则.png

保存后就开始爬取,然后结果如下


多结构爬取.png

然后现在的爬取结构如下
添加时间规则后的爬取结构.png
  • 导出爬取的数据
导出数据.png
下载数据.png
下载到本地.png
打开数据后的样子.png
  • 如果出现你选择的元素比较多的话,推荐在根目录下创建一个容器来承载他们
创建elements.png
容器的选取范围.png
选取root作为elements的父选择器.png
选取elements作为title的父选择器.png
time同理.png
elements爬取后的结果.png
创建elements后的爬取结构.png

4. 多级数据抓取

  • 创建新的抓取方法

名字懒得想了,网址是https://yunyaniu.blog.csdn.net/article/list/2,然后把 2 改为 1 到 5。爬取一个处女座程序猿的前5页的文章内容。

创建新的抓取方法.png

然后创建套娃的爬取结构,这里只创建两层,先创建第一层,如图
创建一级选择器.png

然后是第二层
创建二级选择器.png

最后创建在第二层中选择的爬取元素
爬取文章内容.png

此时形成的爬取结构是这样的
多级爬取结构.png

爬取结果(不完全展示)
多级爬取的结果.png

解释一下上面的东西:第一层也是就我们创建的root是一个容器,它装载的所页面中所有的文章标题(h4 a),然后第二层是把第一层的东西(也就是文章标题)当做一个一个链接,这样就可以点进去,最后一层点进链接后的页面,然后选取的文章正文爬取下来

root选取的内容.png

然后第二层就把它作为一个链接点击去,然后下面就是爬取的内容


content.png

好了暂时先写这么多吧,有什么不对的,欢迎一起讨论,毕竟我也刚学,动手实战能够学得更快,大家加油。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容