有的时候无法打开文件,总是提示编码错误如下:
UnicodeDecodeError: 'gb2312' codec can't decode byte 0xe7 in position 514: illegal multibyte sequence
这种情况下我们可以采用二进制模式读取文件,然后查看文件的编码格式
>>> import chardet
>>> data =open(u"西游记.txt", "rb").read()
>>> chardet.detect(data)
{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
附
该文章于2017年9月23日于CSDN上首次发表,2017年12月24日搬家至此!