python爬虫学习之路，为老婆爬下整站模板-第一章

老婆是影楼做后期的，经常要下载模板，看老婆点开86ps.com网站，一个一个点，然后找下载地址，这过程真是麻烦，既然咱是搞程序的，虽然前面学python都是跳过爬虫这一块，但看一下，在实践一下，爬下网站的下载地址是没问题的。

先看总结吧

主要用到的模块和相关软件

urllib，re，scrapy，mysql，raspberry，multiprocessing，python3

第一阶段为初步学习阶段

先看一下最基础的爬下一个页面的原理

image

非常简单，这几句话就行了。就能看到整个网站的html结构

然后我们分析一下网站的html结构

image

然后在用正则匹配（我当时爬的时候他们是ThumbImg的class，后来换了）

image

这里我是匹配的下载的那个div，最开始是直接匹配下载地址，后来看到下载地址有很多一不样，就先匹配这个div，在匹配到这里面的地址

image

由于网站的多个地址都是一个下载地址，只返回一个就够了。

有人问我这里怎么不直接匹配下载地址，看到有的页面有时候不只有这个文件的下载，还有一些其它的东西，就先匹配到这个div，在来找地址。

在看网站的页数，直接开始循环

image

下面开始循环工作，我这里从34开始是断电了，然后就停止了，就从34直接开始了，后面会讲讲一个系统怎么完善。

image

然后等他工作完成，完成后点开sz.txt看到所有下载地址全部爬完

image

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。