python爬虫学习之路,为老婆爬下整站模板-第一章

老婆是影楼做后期的,经常要下载模板,看老婆点开86ps.com网站,一个一个点,然后找下载地址,这过程真是麻烦,既然咱是搞程序的,虽然前面学python都是跳过爬虫这一块,但看一下,在实践一下,爬下网站的下载地址是没问题的。

先看总结吧

主要用到的模块和相关软件

urllib,re,scrapy,mysql,raspberry,multiprocessing,python3

第一阶段为初步学习阶段

先看一下最基础的爬下一个页面的原理

image

非常简单,这几句话就行了。就能看到整个网站的html结构

然后我们分析一下网站的html结构

image

然后在用正则匹配(我当时爬的时候他们是ThumbImg的class,后来换了)

image

这里我是匹配的下载的那个div,最开始是直接匹配下载地址,后来看到下载地址有很多一不样,就先匹配这个div,在匹配到这里面的地址

image

由于网站的多个地址都是一个下载地址,只返回一个就够了。

有人问我这里怎么不直接匹配下载地址,看到有的页面有时候不只有这个文件的下载,还有一些其它的东西,就先匹配到这个div,在来找地址。

在看网站的页数,直接开始循环

image

下面开始循环工作,我这里从34开始是断电了,然后就停止了,就从34直接开始了,后面会讲讲一个系统怎么完善。

image

然后等他工作完成,完成后点开sz.txt看到所有下载地址全部爬完

image
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容