bert 字符编码报错

报错信息: UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcd in position 9: invalid continuation byte

三份数据文件:train.tsv dev.tsv test.tsv 不是utf-8编码导致,在notepad++中转换为utf-8即可

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 字符集和编码简介 在编程中常常可以见到各种字符集和编码,包括ASCII,MBCS,Unicode等字符集。确切的说...
    兰山小亭阅读 12,892评论 0 13
  • python 中的unicode是让人很困惑、比较难以理解的问题.这篇文章写的比较好,utf-8是 unicode...
    think_lonely阅读 4,436评论 0 0
  • 05-03-字符串和编码 https://www.liaoxuefeng.com/wiki/10169596636...
    qu6zhi阅读 1,355评论 0 0
  • 字符编码 我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。 因为计算机只能处理数...
    luckybabying阅读 2,415评论 0 0
  • 对于数据集3,4,5,6会存在大量为0的情况的原因为:因为这个数据集中存在大量的原文并且是对文章进行改写的,从而会...
    Going小智阅读 3,808评论 0 0

友情链接更多精彩内容