简单的爬虫代码实例。
需要用到requests模块,它是python基于网络请求模块,用来模拟浏览器发请求。
安装:pip install requests
一个简单代码,获取网页首页数据.
import requests
if __name__=="__main__":
url="https://www.so.com/" #指定url
res=requests.get(url) #向相应的url发有请求
txt=res.text #取得响应(res)数据
with open("./test.html","w",encoding="utf-8") as fs: #把取得的数据存在本地
fs.write(txt)
print("end")
网站服务器会检测请求方的身份,如果检测到请求方为浏览器就认为是正常访问给予响应,如果请求方不是浏览器,网站有可能会拒绝访问。
user-agent:携带请求方的身份标识,可以用user-agent把爬虫伪装为浏览器访问。
这是一个user-agent的例子。
import requests
if __name__=="__main__":
url = "https://www.so.com/s" # 指定url
#设置user-agent用字典的形式
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'}
queryword =input("请录入查询内容:")
parm={'q':queryword} #与网页址查询字标识名一致 https://www.so.com/s?q=XXXXX
res = requests.get(url,params=parm,headers=headers) # 向相应的url发有请求
txt = res.text # 取得响应(res)数据
with open("./test1.html", "w", encoding="utf-8") as fs: # 把取得的数据存在本地
fs.write(txt)
print("end")
注意:User-Agent字段可以在相应网页上,打开“工具”-“开发员工具”,然后刷新相应网页取得,如下图

image.png