urllib爬取网页

import urllib.request

#向指定的URL地址发起请求，并返回服务器响应的数据（文件的对象）

response=urllib.request.urlopen(r'http://www.baidu.com')

#response 属性

#返回当前环境的有关信息

response.info()

#返回状态码（为200 （成功） or 304（有缓存））

response.getcode()

#返回当前正在爬取的URL地址

response.geturl()

#解码(将url中的中文字符解出来)

newUrl= urllib.request.unquote(url)

#编码（将url中的中文字符编码）【中文字符默认编码】

newUrl=urllib.request.quote(url)

#读取文件的全部内容，会把读取到的数据赋值给一个字符串

'''

data=response.read()

#print(type(data)) #bytes类型

print(data)

#将爬取到的网页写入文件

'''

#with open(r'I:1.html','wb') as f:

#f.write(data)

'''

#读取一行

#data=response.readline()

#常用

#读取文件的全部内容，会把读取到的数据赋值给一个列表

#data=response.readlines()