先从一个最简单的页面开始爬起
from urllib import request
res = request.Request("http://www.baidu.com") #构建请求
res = request.urlopen(res) #获取服务器响应
print(res.read().decode('utf-8')) #读取设置编码 输出到控制台
运行
但是往往裸奔版对一些网站是爬不了的,这时就需要对爬虫进行一些伪装了。伪装浏览器或者加入延时。
改成如下代码
from urllib import request
import ssl
res = request.Request("http://www.baidu.com")
res.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36")
context = ssl._create_unverified_context()
res = request.urlopen(res,context=context)
print(res.read().decode('utf-8'))
这样就成功完成伪装了