[015]计算机中的编码由来

背景

java和python中都遇到了编码的问题。
比如eclipse中乱码的问题,java读取数据库乱码的问题,python中codec遇到的问题。

configParser.py打开一个含有中文的配置文件时出现如下错误:

UnicodeDecodeError: 'gbk' codec can't decode byte 0xa1 in position 61: illegal multibyte sequence

所以系统了解编码知识很有必要。

编码产生的背景

各种编码的产生是在历史作用推动下方便计算机表达各国文字的需要而产生的。
最开始的编码是ISO8859-1通常叫做Latin-1,他是单字节编码即8个bit位最多表示256个字符只能表示英文字符。
单字节对于汉字、日文等等就没办法表示,所以出现了多字节编码MBCS(Multi-Byte Character Set)。

单字节与多字节的区别 -- 解决编码表示的问题

1.单字节和MBCS如何区别:
ASCII(American Standard Code for Information Interchange)使用的是单字节编码,但是ASCII表也只使用了8位bit可以表示字符中的一半即只有126个ASCII字符。

所以我们可以通过第一位是否大于X80来判断该编码是单字节还是多字节编码。如果小于X80则表示ASCII字符如果大于X80则第一个字节与第二个字节合起来(两个字节)合起来表示一个字符,然后跳过下一个字节继续判断。

2.多字节中根据 计算机 内存友好和操作效率可以分为定长编码和变长编码
由于定长编码编码便于计算机处理,所以很多软件内部使用unicode编码(双字节定长编码),比如字符串在java内存中就是使用unicode编码。

unicode编码 与 带有国家政治的编码 --历史因素

1.Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是"UniversalMultiple-Octet Coded Character Set",简称为UCS。

unicode使用定长双字节编码,所以与ISO-8859-1是不兼容的(iso8859-1是单字节)。这两者有一点联系,在编码上unicode实在ISO-8859-1前面加了一个0,比如a在ISO8859-1表示为"61"在unicode中表示为"0061"。

2.每个国家语言根据需要推出自己的编码
比如为了表示汉子推出了表示简体中文的GB2312和繁体中文的big5。后面玉玉GB2312表示的汉子太少又推出了GBK编码(增加了GBK1.0收录了21886个符号)。
2000年的GB18030是取代GBK1.0的正式国家标准,包含了藏文、蒙文、维吾尔文等主要的少数民族文字。

定长与变长 -- 传输和存储

unicode几乎可以表示所有的字符便于计算机处理但是不方便传输和存储。所以后来又出现UTF编码,对于英文字符UTF也是使用一个字节表示所以UTF编码兼容ISO8859-1。
而对于其他字符使用变长的1-6个不等的字节表示,比如汉字就使用3个字节表示。

Python中的编码和解码

上面我们陈述了 UTF-8 , ascii码 , unicode的由来。
这里我们解决python中经常遇到的编码和解码问题。

什么是python编码解码,编码就是unicode->str,解码就是str->unicode.
一个str以什么方式编码必须以什么方式解码才不会出现乱码。
str1.decode(‘gb2312’),表示将gb2312编码的字符串str1解码成unicode。
str2.encode(‘utf-8’),表示将unicode字符串str2转换成用utf-8格式编码的字符串。
不同编码之间如果需要转换需要如下先解码再编码:str1.decode('gb2312').encode('utf-8')

#!/usr/bin/env python
# -*- coding: ascii -*-

    def testCodecs(self):
        s = '中文'  # 这里的 s 是ascii编码的字符串类型
        s.encode('gb18030')
        print(sys.getdefaultencoding())

报错:
  File "/Users/shawn/eclipse_workspace_pdev_group/python_works/pythonLearnCodeExample/src/str_oper/testStr.py", line 0
SyntaxError: 'ascii' codec can't decode byte 0xe2 in position 227: ordinal not in range(128)

错误的原因有:
1). s = ‘中文’,因为前面说明了 -*-coding:ascii -*-  ascii编码表示不了中文。
2). s为ascii编码类型,s.encode('gb18030')是对S重新编码,相当于s.decode(sys.getdeaultencoding).encode('gb18030'),因为文件头写了ascii编码类型,所以通过utf-8 decode报错。

java 中的编码解码

java 中的编码不需要经过unicode来转化,unicode可以用来编码和解码字符串。
这里的关系有点类似于译密文,当你存储使用一个字节一个字节存储,当时展示给人看(有意义的字符)需要还原成原文(原来有意义的字符)。

1. String.getBytes()
/**
作用是将字符串所表示的字符按照charset编码,并以字节方式表示。注意字符串在java内存中总是按unicode编码存储的。比如"中文",正常情况下(即没有错误的时候)存储为"4e2d 6587",如果charset为"gbk",则被编码为"d6d0 cec4",然后返回字节"d6 d0 ce c4"。如果charset为"utf8"则最后是"e4 b8 ad e6 96 87"。如果是"iso8859-1",则由于无法编码,最后返回 "3f 3f"(两个问号)
*/
2. new String(byte[],charset)
/**
和上一个函数的作用相反,将字节数组按照charset编码进行组合识别,最后转换为unicode存储。参考上述getBytes的例子,"gbk" 和"utf8"都可以得出正确的结果"4e2d 6587"
*/
@Test
    public void test1()
    {
        String s = "你好";
        // 编码
        byte[] utf;
        try {
            utf = s.getBytes("utf-8");
            byte[] gbk = s.getBytes("gbk");
            System.out.println("utf-8编码:" + Arrays.toString(utf));//[-28,-67,-96,-27,-91,-67]  6个字节
            System.out.println("gbk编码:" + Arrays.toString(gbk));//[-60,-29,-70,-61] 4个字节
            // 解码
            String s1 = new String(utf, "utf-8"); // utf8/utf8你好
            String s2 = new String(utf, "gbk"); // utf8/gbk 解码:浣犲ソ gbk用2个字节解码,所以会多一个字符
            String s3 = new String(gbk, "utf-8"); // gbk/utf8 用utf-8解码:??? utf-8解码需要6个字节
            String s4 = new String(gbk, "gbk"); // gbk/gbk 用utf-8解码:??? utf-8解码需要6个字节

            System.out.println("--------------------");
            System.out.println("utf-8/utf8 解码:" + s1);
            System.out.println("utf8/gbk解码:" + s2);
            System.out.println("gbk用utf-8解码:" + s3);
            System.out.println("gbk用gbk解码:" + s4);
            System.out.println("---------------------");
            s3 = new String(s3.getBytes("utf-8"), "gbk"); // 锟斤拷锟?   gbk用utf-8解码后无法编回去
            System.out.println("s3为gbk用utf-8编码:s3.getBytes(\"utf-8\"), \"gbk\"" + s3);


            byte [] unicode = s.getBytes("unicode");
            String s5 = new String(unicode,"unicode");
            System.out.println("S5=" + s5);

        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }
        
    }

执行结果为:

utf-8编码:[-28, -67, -96, -27, -91, -67]
gbk编码:[-60, -29, -70, -61]
--------------------
utf-8/utf8 解码:你好
utf8/gbk解码:浣犲ソ
gbk用utf-8解码:���
gbk用gbk解码:你好
---------------------
s3为gbk用utf-8编码:s3.getBytes("utf-8"), "gbk"锟斤拷锟�
S5=你好
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容