pandas read_csv/read_table读文件时出现编码错误解决办法

背景:读取文件(文件很大,上亿行)时,常常会出现编码的问题,因为文件默认编码时utf-8,所以在读取文件时,用如下方法读取:

data =pd.read_table(filename, header=None,sep="\001", encoding="utf-8",error_bad_lines=False)

但是,常常在文件快读完时,报如下错误:
image.png

经过苦苦查找资料,终于找到了如下解决办法

方法一、(推荐使用该方法):(https://stackoverflow.com/questions/18171739/unicodedecodeerror-when-reading-csv-file-in-pandas-with-python):

image.png

即:将encoding="utf-8"用 encoding= 'latin1' 或 encoding='ISO-8859-1'替换即可解决该问题。

方法二、在前面增加一个读取文件的操作即如下:

filename = open('文件名', encoding='utf-8')
data = pd.read_table(filename, header=None,sep="\001", encoding="utf-8",error_bad_lines=False)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容