Python爬虫入门笔记（一）

一、什么是爬虫

简单讲就是将网页中的数据下载到本地。

二、如何获取网页

既然要将网页中的数据下载下来，那我们是不是应该先打开一个网页呢，就像在浏览器中输入url地址，然后就获得一个网页。

如何打开呢？

这里我们需要安装requests库，通过“命令提示符“进入cmd，然后输入“pip install requests”，安装成功后，我们就可以使用它来打开一个网页了。

返回200代表访问成功，接着我们将网页源代码打印出来

好像和原网页不太一样，怎么回事呢？原来是编码的问题。我们将编码改变一下，然后再看看。

ok，网页获取成功，完整代码。

Response对象的属性

r.status_code：HTTP请求的返回状态。

r.encoding：从HTTP header中猜测的响应的内容编码方式。

r.apparent_encoding：从内容中分析出的响应内容编码方式。

r.text：HTTP响应内容的字符串形式。

r.content：HTTP响应内容的二进制形式。

最后编辑于：2017.12.10 23:23:37

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。