Python3简单爬虫

先从一个最简单的页面开始爬起


    from urllib import request
    res = request.Request("http://www.baidu.com")  #构建请求
    res = request.urlopen(res) #获取服务器响应
    print(res.read().decode('utf-8')) #读取设置编码  输出到控制台

运行


但是往往裸奔版对一些网站是爬不了的,这时就需要对爬虫进行一些伪装了。伪装浏览器或者加入延时。
改成如下代码

    from urllib import request
    import ssl

    res = request.Request("http://www.baidu.com")

    res.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko)   Chrome/58.0.3029.81 Safari/537.36")
  context = ssl._create_unverified_context()
    res = request.urlopen(res,context=context)
    print(res.read().decode('utf-8'))

这样就成功完成伪装了

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容