urllib爬取网页

import urllib.request

#向指定的URL地址发起请求,并返回服务器响应的数据(文件的对象)

response=urllib.request.urlopen(r'http://www.baidu.com')

#response 属性

#返回当前环境的有关信息

response.info()

#返回状态码(为200 (成功) or 304(有缓存))

response.getcode()

#返回当前正在爬取的URL地址

response.geturl()

#解码(将url中的中文字符解出来)

newUrl= urllib.request.unquote(url)

#编码(将url中的中文字符编码)【中文字符默认编码】

newUrl=urllib.request.quote(url)

#读取文件的全部内容,会把读取到的数据赋值给一个字符串

'''

data=response.read()

#print(type(data)) #bytes类型

print(data)

#将爬取到的网页写入文件

'''

#with open(r'I:1.html','wb') as f:

    #f.write(data) 

'''

'''

#读取一行

#data=response.readline()

#常用

#读取文件的全部内容,会把读取到的数据赋值给一个列表

#data=response.readlines()

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。