网络爬虫(二)

简单的爬虫代码实例。

需要用到requests模块,它是python基于网络请求模块,用来模拟浏览器发请求。
安装:pip install requests

一个简单代码,获取网页首页数据.

import requests
if __name__=="__main__":
    url="https://www.so.com/"  #指定url
    res=requests.get(url)     #向相应的url发有请求
    txt=res.text     #取得响应(res)数据
    with open("./test.html","w",encoding="utf-8") as fs:  #把取得的数据存在本地
        fs.write(txt)
    print("end")

网站服务器会检测请求方的身份,如果检测到请求方为浏览器就认为是正常访问给予响应,如果请求方不是浏览器,网站有可能会拒绝访问。
user-agent:携带请求方的身份标识,可以用user-agent把爬虫伪装为浏览器访问。

这是一个user-agent的例子。

import requests

if __name__=="__main__":
    url = "https://www.so.com/s"  # 指定url
    #设置user-agent用字典的形式
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'}
    queryword =input("请录入查询内容:")
    parm={'q':queryword} #与网页址查询字标识名一致 https://www.so.com/s?q=XXXXX
    res = requests.get(url,params=parm,headers=headers)  # 向相应的url发有请求
    txt = res.text  # 取得响应(res)数据
    with open("./test1.html", "w", encoding="utf-8") as fs:  # 把取得的数据存在本地
        fs.write(txt)
    print("end")

注意:User-Agent字段可以在相应网页上,打开“工具”-“开发员工具”,然后刷新相应网页取得,如下图

image.png

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容