原谅我抱着不单纯的目的学习Python。最近几年爬虫的概念一直很火。于是我也来研究了一下。
爬虫的大致思路很简单,就是通过一个网站的网址,通过正则表达式或者其他方式获取到网站图片的地址,然后再将图片下载下来。
虽然思路说起来简单,但是在实践过程中你会发现很多很多的问题。最常见的是timeout超时。于是你就要花时间不断的去优化细节代码。
通过本次实践(你没看错,我用的是Python自带的IDLE写的),我算是基本上掌握了Python的大部分基础知识,还有一些编程的思想,比如面向过程和面向对象。还有函数和类。当然离大神还有很远的距离。
我发现在简单的代码下,面向过程是最简单的,也是最好理解,最容易看懂的。甚至连自定义函数都可以不用,100行以内直接就能写出来一个爬虫代码,简单直接,执行速度也最快。
其次是自定义函数,将一些功能封装起来,方便重复调用,不过简单的爬虫也没有多少重复利用的函数吧,执行速度还算比较快。
最后是大神比较推荐的类,这种方式好处就是方便维护。每一个对象一个类,方便代码扩充。可是缺点也很明显,就是执行速度很慢。
所以,还是那句话。写代码不能光追求牛逼,更重要的是要看执行效率。
我看到网上有人学习Python一年了居然都没有用过类,都不懂什么是面向对象。一方面我暗自嘲笑这人学的是个什么玩意儿,另一方面我也认为学习不能光盲从。不能别人说用什么牛逼你就去学,我就坚持不写自定义函数,不用对象怎么了?我就是要这么有个性。
在这方面,我觉得编程的哲学思想是很宽容的,起码比现实社会要宽容。
上面是我编写的人生中第一个爬虫。功能就是抓取指定指定目录下的文章中的图片。为此我还画了一张流程图。
其实只要你把每一步思路全部想清楚之后,再去写代码实现就很简单了。
上面是我写的另外一个爬虫,封装了很多自定义函数。同样是面向过程编写的。我总共写了三个爬虫,还有一个是用类写的,代码执行效率太慢,就不贴了。
一开始觉得写爬虫很简单,写着写着问题就都来了。你比如爬虫经常被屏蔽。这个时候就要给爬虫添加代理,添加header。然后你会发现每次抓到一半超时了,你重新运行爬虫发现又是从头抓取的,这个时候又要想到断点续传的问题。还有就是正则表达式,你应该怎么写,这些对于我一个新手来说都是问题。
通过这次实践,我感觉收获还是很大的。毕竟实践才是检验学习能力的唯一标准,能够学以致用,看来我没有白学。
以上因为代码太长,所以没有粘贴到文章中,如果需要代码,公众号7TEC回复:抓图,将会把下载地址推送给你,可以保存下来自己研究一下。