朴素贝叶斯中报错UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 884: invalid start

在机器学习第四章朴素贝叶斯中进行垃圾邮件分类时,原语句:

wordList = textParse(open('email/spam/%d.txt' % i, 'rb').read())

报错:UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 884: invalid start

改正方法:

第一种,修改为:wordList = textParse(open('email/spam/%d.txt' % i, 'rb').read().decode('utf8','ignore'))

第二种:在终端用vim分别打开文件,输入set,查看那个不是utf-8的编码,然后set fileencoding=utf-8,保存退出(这个方法没有试过)

参考的链接python编码错误解决:UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 884: invalid start_wiki347552913的博客-CSDN博客

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容