python 爬虫

python如何访问网络           用urllib包

url 由三部分组成

第一部分:协议,http,https,ftp,file,ed2k   and so on

第二部分:存放资源的服务器的IP地址或者域名,有时候会包含端口号,比如http的默认端口号为80

第三部分:资源的具体地址,如目录或文件名称等

第一部分://第二部分/第三部分

首先需要导入urllib包,然后使用URLopen方法获取网页

import urllib.request

response = urllib.request.urlopen('http://www.baidu.com/')    #获取了对象

html = response.read()   #读取数据

print(html)   #这里需要注意解码问题,这是二进制码,所以需要下一步的解码

html = html.decode('utf-8')

print(html)

换一个网站,python卡死了


上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例,构造时需要传入Url,Data等等的内容。

import urllib.request

req = urllib.request.Request('http://www.baidu.com/')

response = urllib.request.urlopen(req)

html = response.read()




cookie 这玩意儿2跟3版本不太一样啊

import urllib

import http.cookiejar

#声明一个CookieJar对象实例来保存cookie

cookie = http.cookiejar.CookieJar()

#利用urllib的HTTPCookieProcessor对象来创建cookie处理器

cookie=urllib.request.HTTPCookieProcessor(cookie)

#通过cookie来构建opener

opener = urllib.request.build_opener(handler)  #可以下方同时加入代理


#此处的open方法同urllib2的urlopen方法,也可以传入request

response = opener.open('http://www.baidu.com')

for item in cookie:

print ('Name = '+item.name)

print ('Value = '+item.value)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • http header 消息通常被分为4个部分:general header即头部, request header...
    徐薇薇阅读 32,081评论 0 5
  • **来源:开源中国 ****链接:http://my.oschina.net/jhao104/blog/64730...
    JackyTsuuuy阅读 599评论 0 5
  • 女孩说,以后不要再联系了吧! 男孩说我爱你我爱你,没有第三遍! 这个世界上第一个跟女孩说“你是我的公主,我会永远爱...
    小韩吉阅读 278评论 0 0
  • 对于一个数组,请设计一个高效算法计算需要排序的最短子数组的长度。 给定一个int数组A和数组的大小n,请返回一个二...
    X_Y阅读 110评论 0 0
  • 本次培训主要分为两部分 一、使用软件注意事项 1.样品资料 ***禁止串改定价(图书新赠,名称输入后不能按方向键)...
    王淑萍阅读 254评论 0 0