一、什么是爬虫
简单讲就是将网页中的数据下载到本地。
二、如何获取网页
既然要将网页中的数据下载下来,那我们是不是应该先打开一个网页呢,就像在浏览器中输入url地址,然后就获得一个网页。
如何打开呢?
这里我们需要安装requests库,通过“命令提示符“进入cmd,然后输入“pip install requests”,安装成功后,我们就可以使用它来打开一个网页了。
requests的用法点击这里
好像和原网页不太一样,怎么回事呢?原来是编码的问题。我们将编码改变一下,然后再看看。
ok,网页获取成功,完整代码。
三、总结
Response对象的属性
r.status_code:HTTP请求的返回状态。
r.encoding:从HTTP header中猜测的响应的内容编码方式。
r.apparent_encoding:从内容中分析出的响应内容编码方式。
r.text:HTTP响应内容的字符串形式。
r.content:HTTP响应内容的二进制形式。