urllib2 第一弹 ----urlopen()

urllib2 第一篇

资源访问:urlopen()
数据读取:read()

urlopen()-->response

-->response-->read()抓取网页数据
-->response-->info()抓去网页请求报头信息
-->response-->geturl()抓取访问地址
-->response-->getcode()抓取访问错误代码

import urllib2

req = urllib2.Request('https://www.baidu.com')
response = urllib2.urlopen(req)
pg = response.read()
print (pg)

运行结果:


Paste_Image.png

urllib2 第二篇

伪造浏览器请求
请求对象Request

-->Reauest-->add_header(key,value):设置请求头数据
-->Reauest-->add_header(key):根据名称获取请求头数据

# -*- coding:utf-8 -*-
import urllib2
from urllib2 import Request
#伪造浏览器
Headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.101 Safari/537.36"}
req = Request('https://www.baidu.com',headers=Headers)
response = urllib2.urlopen(req)
pg = response.read()
print (pg)

运行结果:


Paste_Image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,308评论 19 139
  • urllib2是Python的一个获取URLs的组件。他以urlopen函数的形式提供了一个非常简单的接口,具有利...
    查无此人asdasd阅读 5,411评论 0 3
  • Python爬虫入门(urllib+Beautifulsoup) 本文包括:1、爬虫简单介绍2、爬虫架构三大模块3...
    廖少少阅读 13,332评论 0 6
  • 一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spide...
    随风化作雨阅读 4,849评论 0 0
  • 一、概述 urllib2是Python的一个针对URLs的库。他以urlopen函数的形式提供了一个非常简单的...
    MiracleJQ阅读 5,344评论 0 5