网络爬虫（二)

简单的爬虫代码实例。

需要用到requests模块，它是python基于网络请求模块，用来模拟浏览器发请求。
安装:pip install requests

一个简单代码,获取网页首页数据.

import requests
if __name__=="__main__":
    url="https://www.so.com/"  #指定url
    res=requests.get(url)     #向相应的url发有请求
    txt=res.text     #取得响应(res)数据
    with open("./test.html","w",encoding="utf-8") as fs:  #把取得的数据存在本地
        fs.write(txt)
    print("end")

网站服务器会检测请求方的身份，如果检测到请求方为浏览器就认为是正常访问给予响应，如果请求方不是浏览器，网站有可能会拒绝访问。
user-agent：携带请求方的身份标识，可以用user-agent把爬虫伪装为浏览器访问。

这是一个user-agent的例子。

import requests

if __name__=="__main__":
    url = "https://www.so.com/s"  # 指定url
    #设置user-agent用字典的形式
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'}
    queryword =input("请录入查询内容:")
    parm={'q':queryword} #与网页址查询字标识名一致　https://www.so.com/s?q=XXXXX
    res = requests.get(url,params=parm,headers=headers)  # 向相应的url发有请求
    txt = res.text  # 取得响应(res)数据
    with open("./test1.html", "w", encoding="utf-8") as fs:  # 把取得的数据存在本地
        fs.write(txt)
    print("end")

注意：User-Agent字段可以在相应网页上，打开“工具”－“开发员工具”，然后刷新相应网页取得，如下图

image.png

最后编辑于：2019.05.08 09:42:06

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

网络爬虫（二)

网络爬虫（二)

相关阅读更多精彩内容

友情链接更多精彩内容