登录注册写文章

Python爬虫实例（1）

Python爬虫实例（1）

1.网络爬虫爬什么？

从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，直到把这个网站所有的网页都抓取完为止。
其实就是抓取网页。
比如我们想找Python教程，以runoob.com为例
想抓取Python3的所有教程
URL为：https://www.runoob.com/python3/python3-tutorial.html

2.利用urllib抓取网页内容

image.png

返回200说明连接成功

但是，有一些站点不喜欢被程序（非人为访问）访问，浏览器确认自己身份是通过User-Agent头，我们可以模拟User-Agent头访问页面
获取User-Agent头信息如下图：

image.png

代码如下：

image.png

连接成功，我们再打印网页内容看一下：

image.png

这样我们成功抓取了网页的内容。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

爬虫基础
HTTP基本原理 URI、URL、URN（Uninform Resource） URI（Identifier）:统...
GHope阅读 6,450评论 2赞 26
浏览器User-Agent、Cookie
一、基础知识篇：Http Header之User-AgentUser Agent中文名为用户代理，是Http协议中...
iPhone阅读 16,122评论 0赞 13

爬虫（1）--- Python网络爬虫二三事
1 前言作为一名合格的数据分析师，其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
whenif阅读 18,196评论 45赞 523
Python爬虫urllib2库的基本使用系列(三)
1. 网页抓取所谓网页抓取，就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来...
rhlp阅读 4,628评论 0赞 0
那年迟来的告白
“为什么只有你一个人来，她没有来吗”？ “没有”“那年毕业以后就分手了” 我呆住了，好久没反映过来，问了句：“为什...
我从你的世界路过却只是路过阅读 1,677评论 0赞 0

赞1赞

赞赏

手机看全文