前段时间应朋友之邀,帮忙用Python写爬虫抓去了些数据。作为世界上最好用两种语言(指Python2.x和Python3.x,为网友的戏谑之言),Python爬虫确实很强大,帮完朋友后,决定自己再慢慢研究研究,好好学习一下Python这门眼下炙手可热的编程语言。
爬虫,其实主要分为几个步骤:
1、获取网页内容
2、解析网页内容,获得所需数据
3、存储数据
基本上,爬虫都是按照这个思路一行一行代码敲下来的。
好了,那么首先就进行第一步,获取网页内容。
获取网页内容,第一步又是什么呢,自然是得先有个网址啦,你打开浏览器浏览网站,第一步不就是往地址栏里面输入网址吗。这里我以豆瓣为例,准备抓取豆瓣网上的内容。所以准备的地址就是:http://douban.com
如上图所示,在浏览器中只要输入http://douban.com然后敲击回车就能获得豆瓣的页面,在python代码中需要敲下如下代码
import requests
response=requests.get('douban.com')
然后运行代码,发现报错了
根据错误提示,我们必须把'douban.com'改成'http://douban.com'
根据提示更改代码
import requests
response = requests.get('http://douban.com')
再次运行
一切正常,也就是说网页已经抓取下来了,而抓取下来的一切信息都在我们命名的这个“response”变量里。在这里我用了最简单的网页抓取方式,就是requests模块的get方法,在这里只需要传递一个参数,就是网页的地址就OK了,当然了,还能传递其他不同的参数发挥不同的作用,但是目前还用不到,以后慢慢再说。
接下来,这个‘response’要如何操作呢,或者说它支持哪些操作?
这个时候,我们需要用Python的内置函数dir来帮忙啦。
dir(response)
可以看到,以下这些就是可以对‘response’进行的操作,至于每一个操作都是什么意思呢,需要我们慢慢摸索,只有自己摸索,才能学得到精髓。
当然啦,我们最关心的就是网页的内容,毕竟数据都在那里面藏着呢。网页的内容就是倒数第二个‘text’。
import requests
response = requests.get('http://douban.com')
print(response.text)
结果如下
得到了网页的内容,是一个html的文档。
至此,第一步获取网页内容圆满成功。