Java文件编码

处理文本文件时，经常会碰上乱码。那么，乱码是怎么产生的呢？

文件以一定的编码规则存储在计算机中，却又以字符的形式显示在屏幕上。为了能有效节省存储空间，又提高转化为字符的效率，人们研究出多种编码格式。例如，utf-16,utf-8,gbk,gb18030..

大家知道，所有文件在计算机中都以二进制的形式存在。在java中，我们自然可以选择使用字节流来处理文件，更常用的还是字符流。

编码原理

java的nio中，Reader是所有输入字符流的父类，InputStream是所有输入字节流的父类。

字符 -> 编码 -> 字节

字节 -> 解码 -> 字符

当我们使用utf-8进行编码时，就必须使用utf-8解码。

picture1

当使用GBK编码，iso-8859-1解码时，会出现以下情况：

picture2

编码解码的不可逆性

byte ge[] = { (byte) 0xb8, (byte) 0xf6 };

若使用

  String s = new String(ge, "gbk");

打印出s，为个

再按几种编码格式对 s 进行编码：

  //则取出的字节值为：-28，-72，-86。
  //‘个’的utf8编码  
  s.getBytes("utf8") 

  //得到0xb8,0xf6。‘个’的gbk编码  
  s.getBytes("gbk")

若使用

  String s = new String(ge, "utf8");

此时s已经是乱码。

  //得到-17,-65,-67,-17,-65,-67  
  s.getBytes("utf8")

此时s的内容已经完全乱掉了，所以再用

  s.getBytes("gbk");

得到的数据也是乱的，无法逆向出真正的内容来。

两种正确解析方式

采用开源库：CpDetector进行自动检测文本编码

使用字符流

  Charset charset = codepageDetectorProxy.detectCodepage(inputStream,100);
  
  bufferedReader = new BufferedReader(new InputStreamReader(inputStream,charset.name()));
  
  while((line = bufferedReader.readLine()) != null) {
      contentTxt += line;
  }

使用字节流

  BufferedInputStream bufferedInputStream = new BufferedInputStream(inputStream);
  
  Charset charset = codepageDetectorProxy.detectCodepage(inputStream,100);
  
  bytes = new byte[bufferedInputStream.available()];
  
  bufferedInputStream.read(bytes);
  
  contentTxt += Charset.forName(charset.name()).decode(ByteBuffer.wrap(bytes)).toString();

结尾

参考链接：

time：30min

最后编辑于：2017.12.03 03:11:30

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Java文件编码