Java乱码常规解决方案(一)

Json经过前两篇新手村的煎熬,也终于可以踏上伏龙降虎刺激非凡的大佬(菜鸡)生活。本来觉得还可以水两篇,但是学习是自己的事,况且在简书发布并转发让人阅读,写那么水肯定石沉大海(虽然本人也只是当作笔记使用)。说起来,我也好久没有写过 什么东西,这也算新的开始吧。好了水也水够了,还是来点干货吧!(ps:由于乱码算是一个大问题,所以我分几天解决,请放心,是系列篇,不会随心所欲的乱更)

❤我是可爱的分界线,分界线❤


  • 初识天地--字符集简述

1. 字符集的简单概念
   字符集是各种文字和符号的总称,包括各个国家的文字、符号、图形符号、数字等,每个字符集包含的字符不同形成了不同的字符集。
2. 常用字符集
  ISO8859-1,GB2312,GBK,GB18030,UNICODE。这里ISO8859-1字符集只 包含英文字符,使用一个字节存储。这里最出色的是UNICODE编码,又称万国码,号称要统一世界的字符集,就我浅薄所知,UNICODE字符集已经编码了20多万个字符,基本涵盖了人们所熟知的国家的字符。而UNICODE又有UTF-8 、UTF-16、UTF-32三个分支,简单对比一下这衍生的三支。
  UTF-8是变长字符集,它兼容ISO8859-1,即英文字符使用一个字节编码,而其他的字符使用2到4个字节编码,其中中文字符大部分都是使用3个字节进行编码,少量偏僻字使用4个字节编码,UTF-16统一都使用2个字节编码,它不兼容ISO8859-1,英文字符也使用两个字节,UTF-32统一使用4个字节编码,也不兼容ISO8859-1,可见UTF-16和UTF-32都比较浪费空间,并且从二进制低8位编码角度看,UTF-8更符合计算机编码习惯,一定程度上节约成本。

  • 惑乱之初--乱码根源

1. Java乱码问题的产生原因
  乱码问题的产生最根本的原因就是使用错误的字符集解码字节流或者将给定的字符串用错误的字符集编码成错误字节流造成的。
  而Java乱码的根本原因就是:Java可以设置字符编码的地方太多,要处理的流的编码解码的地方与之成正比,只要有一处不统一的地方就有出现乱码。

这里引用一个例子做解释:

例如”中文”两个汉字,如果用ISO8859-1字符集将其编码为字节流,因为这个字符集不支持中文,所以就会出错,输出结果为3f3f,其意义就是??。再例如”中文”二字的GBK的字节流为d6 d0 ce c4,可是我们要是用不兼容的字符集去解码,例如用ISO8859-1或者UTF-8,这随后产生的字符串就是乱码,或者是其他的某个字符。这里模拟简单的乱码现象,如图:

模拟乱码.png

  上面的模拟示例,虽说并不是特别合适(因为在实际开发中并不是如此简单),但效果很明显。

    String enc = new String(URLEncoder.encode("我是一个ISO8859-1编码的孩纸", "ISO8859-1"));
    //用UTF-8解码
    String dec = new String(URLDecoder.decode(enc, "UTF-8"));
    System.out.println("编码后被摧残的异国孩子:"+enc+",不成形的的解码:"+dec);

  为了让大家看清楚,我把代码拿了出来,这里的编码字符集是ISO8859-1,而解码字符集是UTF-8,所以在控制台出现了很奇怪的现象,如下:

编码后被摧残的异国孩子:%3F%3F%3F%3FISO8859-1%3F%3F%3F%3F%3F,不成形的的解码:????ISO8859-1?????

除了数字,是不是全是"????" 刺激不!!
说到这里,是不是很想知道Java内部怎么实现编码解码过程的,跟我一起来看把。(ps:以下内容可能很难理解(收集整理),请谨慎食用!!)

我是一个分水岭,分水岭(๓´╰╯`๓)


源代码:在编写java源代码的时候,我们必须把编写的文本保存在文件中,这个时候不管用什么编辑器,都存在一个问题,就是以什么样的字符集将这些源代码(包含汉字)保存到文件中,大部分编辑器都会通过系统的环境变量得到系统的当前默认字符集,编辑器就会使用这个字符集将我们编写的源代码保存到文件中。一般我们的中文Windows系统的默认字符集是GB18030,AIX英文环境的默认字符集是ISO8859-1,AIX中文环境的默认字符集是IBM-eucCN。 编译:在编译.java文件的时候如果使用默认处理,则javac会使用系统当前的默认字符集去读取源文件,将源文件的内容转换为UTF-8编码,然后在进行编译,这时我们也可以通过-encoding参数指定一个字符集,让javac使用我们指定的字符集去读取源代码然后在转换为UTF-8,然后编译。编译以后产生的class文件内部所有的中文字符都是用UTF-8的字符集进行编码的,这就是Java程序能处理任何国家文字的原因。
运行时:Java程序在运行时,需要使用程序内部定义的中文字符串,也可能会使用从外部读取的中文字符串,这些经过处理,可能都会输出到程序外部,在这些 过程中都涉及到编码的转换,程序内部定义的字符串都是用UTF-8存储的。而从外部读取和输出到程序外部的输出又使用什么字符集进行处理呢?在我们没有在 程序中特别指定的情况下,JVM会根据系统属性确定使用哪个字符集,这个系统属性的名称为file.encoding,我们可以在启动java程序的时候通过-D参数设定这个值,如果没有设定,JVM会根据系统环境变量确定这个系统属性,一般我们的中文Windows系统的默认字符集是GB18030,AIX英文环境的默认字符集是ISO8859-1,AIX中文环境的默认字符集是IBM-eucCN。这样JVM在处理输入数据的时候就会把字节流根据这个参数进行解码,然后转成UTF-8格式,在Java程序内部处理,然后再根据这个参数把处理后的数据编码,输出到程序外部。这就是Java程序运行时字符集的使用情况。

  篇幅有限,先解决到这里,怎么样有没有蒙圈,俗话说嚼多不烂,期待下一篇把,下一篇,才是重头戏。


>>>对字符集想了解的,这里推荐一篇博文,详情请点击传送门

 ^❤^  ©Copyright Write@Json

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容

  • 编码问题一直困扰着开发人员,尤其在 Java 中更加明显,因为 Java 是跨平台语言,不同平台之间编码之间的切换...
    x360阅读 2,471评论 1 20
  • 字符是用户可以读写的最小单位。计算机所能支持的字符组成的集合,就叫做字符集。字符集通常以二维表的形式存在。二维表的...
    刘惜有阅读 8,098评论 2 14
  • 1. 概述 本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等。 在下面的描述中,将以...
    骚的掉渣阅读 1,166评论 0 0
  • 主要内容 1. 字符编码理论简述 本文主要是围绕Web开发中涉及到的中文编码这一常见问题展开,包括了对字符编码基础...
    topgunviper阅读 13,181评论 5 28
  • 为什么知乎上有很多人黑冯唐。很简单,这种人的心态有问题。 这批人黑冯唐的一个发力点在什么地方?就是说冯唐写的文字流...
    一叶茶阅读 829评论 0 2