已保存这
本文主要讲三个内容:
第一个讲解的项目比较简单:网络小说下载
下面来看这篇小说第一节内容:
代码如下图:
把代码运行我们可以看到:
那么我们如何把如右图所示的内容从繁多的html中提取出来,就是本次所要讲的内容:
Beautiful Soup
好了,了解了审查元素的方法,查下目标页面,如图所示:
下面用Beautiful Soup来提取内容,代码如图所示:
下图代码教你去除div标签名,br标签,和各种空格:
好了,现在已经获取了第一节的内容,再获取每节内容就可以下载全本了,下面分析目录:
对比URL和 的标签:
方法比较容易:
整合代码,把获得内容写入文本文件存储,代码如图所示:
代码如图:
壁纸下载:
怎么反爬虫呢:
既然了解了html标签的功能,就来分析下【img】标签:
爬取Unsplash代码如图:
因为网站的图片都是动态加载的。
报错了?我们再来尝试下
接下来分析Requests Headers:
headers参数值是通过字典传入的。
记得将上述代码中your Client-ID换成诸位自己抓包获得的信息。代码运行结果如下:
整合代码: