爬虫篇只会对简单的爬虫进行介绍,只是为了学习数据分析时方便采集数据。
所以下面关于爬虫的内容将只会围绕urllib2、re这两个库开展
首先我们要对爬虫有一个大体的概念,爬虫是什么呢?
其实就是一个简单的网页下载(这里的说法存在一定的问题但是利于初学者理解)
我们打开百度的首页。
这是它首页的样子,我们可以,之后我们可以在当前这个页面右击,选择——查看网页源代码。在打开的新页面中我们可以看到这样的界面。
它最开始可能会有很多的空行。
在这个页面上显示的内容将会是我们的爬虫爬取下来的内容。
接下来我们开始着手爬虫的编写。
import urllib2
html = urllib2.urlopen('http://www.baidu.com')
这样我们就得到了这个页面,输出html的结果是这样的。
这输出的是一个对象,我们需要将这个对象转换成我们能够读的懂得内容,我们只需要用html.read()即可。
这是完整的代码截图。
这就是最基本的一个爬虫是不是很简单?
那么我们现在来具体的解释一下这个代码。
urllib2是python自带的一个访问网页及本地文件的库。
现阶段我们不需要去理会它的访问本地文件的功能,我们着重关心的是它访问网页的功能。
我们在上面的代码中使用的urlopen方法就是直接打开某个网页,这个过程就好像是我们在浏览器的地址栏中直接输入百度的地址,这个时候它会返回一个对象,这个对象我们在上面已经输出过给大家看了,它并不是我们右击选择查看网页源代码看到的代码,这个时候我们只需要在这串代码后面加上.read(),就可以把这个对象转换成字符串,大家可以自己写写代码看看。