requests爬虫的四个步骤:1.指定url 2.发起请求 3.获取响应数据 4.持久化存储
import requests
from fake_useragentimport UserAgent
#def key_word():
if __name__ =='__main__':
url ="https://www.sogou.com/web"
# url = "https://www.baidu.com/"
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36"
}
kw =input("请输入关键字:")
param = {
"query": kw
}
response = requests.get(url=url,params=param,headers=headers)
# 打印输出代码
print(response.text)
# 保存文件
filename = kw+".html"
with open(filename,'w',encoding='utf-8')as f:
f.write(response.text)
print(filename +"打印成功")
在 本次的小练习中碰到一个坑:就是param中的字典的键和值对应不上。以后再自己写的时候当中,特别需要注明url当中的字典文件
params参数是requests当中的参数,表示的是可以的加入一些参数字典,还有其他的参数