当我们爬取一些页面的中文信息时,会出现如下情况:
爬取的中文编码格式不是UTF-8,无法正常显示,查看编码格式:
编码格式为ISO-8859-1(长见识啦~)
我们先定义一个这种编码的字符串:
先编码
后解码
完整流程
爬取内容变为中文
encode(编码):按照某种规则将“文本”转换为“字节流”,unicode转化为str
decode(解码):将“字节流”按照某种规则转换成“文本”,str转化为unicode
s.decode(' '):运行会出错。因为python 3中的str类型对象有点像Python 2中的unicode, 而decode是将str转为unicode编码,所以str仅有一个encode方法,调用这个方法后将产生一个编码后的byte类型的字符。
AttributeError: 'str' object has no attribute 'decode'
AttributeError: 'bytes' object has no attribute 'encode'