Python爬虫实例(1)

1.网络爬虫爬什么?

从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,直到把这个网站所有的网页都抓取完为止。
其实就是抓取网页。
比如我们想找Python教程,以runoob.com为例
想抓取Python3的所有教程
URL为:https://www.runoob.com/python3/python3-tutorial.html

2.利用urllib抓取网页内容

image.png

返回200说明连接成功

但是,有一些站点不喜欢被程序(非人为访问)访问,浏览器确认自己身份是通过User-Agent头,我们可以模拟User-Agent头访问页面
获取User-Agent头信息如下图:


image.png

代码如下:


image.png

连接成功,我们再打印网页内容看一下:


image.png

这样我们成功抓取了网页的内容。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容