一点关于文本编码的记录

  • 一般情况下Windows在创建编辑文本时默认使用GB18030编码。该编码是全称:“国家标准 GB 18030-2005《信息技术 中文编码字符集》”。这是微软在本土化过程中必须采用的格式。
  • Windows会使用带bom的utf-8编码,但是由于bom本身违反了一个UNIX设计的常见原则,就是文档中存在的数据必须可见。Linux下使用不带bom的utf-8。
  • 大多数脚本语言解释器,都有通过注释等方式标明编码格式。
  • 虽然Windows官方的软件大多对于不带BOM的utf-8的解码完全没有问题,但是仍然有问题存在,比如excel打开csv文件。
  • 一个比较简单的解决Linux,Windows的编码问题的方式是采用带bom的utf-8。Linux除了shell基本都支持bom,而Window会正确识别带bom的utf-8。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容