问题1:编码问题
UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 14: illegal multibyte sequence
解决方法1:
open('hamlete.txt','r').read() ==> open('hamlete.txt','r',encoding='utf-8').read()
知识点1:
文件存储编码是utf-8,打开文件的时候又没有指定编码,f.read()发现文件中有中文,所以按照gbk来
试图将解码,但是因为文件本身是utf-8的,所以解码失败。
总结:
unicode 是万国码(是标准)
utf8 utf16 是unicode的实现方式
gbk gb2312 是汉字编码
encoding 编码
decoding 解码
utf-8 和utf8区别?
一般是没区别的,就是在MySQL中只能用utf8
conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='123456',db='jobspider', charset="utf8")