一分钟用python采集网页

需要

  • html通讯原理
  • 安装python的requests

原理

根据http协议,模拟数据的传输

找到headers头信息,url,通讯方法(如果是post方法,需要找到post的数据)

如何寻找相应的数据

通过requests包模拟请求

代码

import requests.
headers = {
'User-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.97 Safari/537.36'
}
html  = requests.get('http://www.baidu.com',headers = headers)
print html.content

相关进阶:

requests文档

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,464评论 19 139
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 14,381评论 6 28
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,633评论 25 709
  • Verify phone no.
    Z_CHENG阅读 1,592评论 0 0
  • 一对可爱的小夫妻来作客,谈话大大地拓宽了我的知识面(关于证券市场恶意做空的若干案例,关于携程旅行服务方面的知识),...
    d11110d0172b阅读 845评论 0 0