1.网络爬虫爬什么?
从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,直到把这个网站所有的网页都抓取完为止。
其实就是抓取网页。
比如我们想找Python教程,以runoob.com为例
想抓取Python3的所有教程
URL为:https://www.runoob.com/python3/python3-tutorial.html
2.利用urllib抓取网页内容
返回200说明连接成功
但是,有一些站点不喜欢被程序(非人为访问)访问,浏览器确认自己身份是通过User-Agent头,我们可以模拟User-Agent头访问页面
获取User-Agent头信息如下图:
代码如下:
连接成功,我们再打印网页内容看一下:
这样我们成功抓取了网页的内容。