Go charset

Go语言的字符串是一个任意字节的常量序列,本质上是只读的字符型数组,这一点和C语言中的char[]类似,但Go为其封装了一个变量类型称之为string

Go语言字符串中的字符使用UTF-8编码表示Unicode文本,因此Go语言中字符串是一个UTF-8字符的序列。每个字符可使用UTF-8编码的一个或多个字节来表示,因此是变宽字符序列。这一点跟Java、C++、Python3中的字符串有着本质的区别,后者使用的是定宽字符序列。

定宽字符序列中单个字符可以被字节索引,而Go语言中只有在字符串只包含7位的ASCII字符时才可以被字节索引,因为Go语言字符串中的字符都采用的是单一的UTF-8字节表示。对于英文文本,Go语言采用8位来表示一个字节,Java或Python则需要16位或更多。采用UTF-8编码使得Go语言无需关心机器码的排列顺序,也无需编码解码来使用其他语言。

Unicode

  • Unicode是字符集,UTF-8是Unicode字符集的编码规则。
  • 字符集会为每个字符分配一个唯一的ID即码位或码点(Code Point)。
  • 编码规则则是将码位转换为字节序列的规则,即编码和解码规则。

字符集中最知名的要数ASCII(American Standard Code for Information Interchange)的8位字符集,它是美国标准信息交换代码的缩写,为美国英语通信设计,由于是8位(bit)等于1字节(byte),即2的8次方共计128个字符组成,包括大小写字母、数字0-9、标点符号、非打印字符(换行符、制表符等)、控制字符(退格、响铃等)组成。

由于ASCII是针对英语设计的,当处理带有音调标号的亚洲文字时就会出现问题,比如汉语拼音。因此,又创建出包含256个字符的ASCII扩展的字符集。其中一种称为IBM字符集,它将值为128~255之间的字符用于画图和画线,以及一些特殊的欧洲字符。另一种8位字符集是ISO 885901Latin-1,它将位于128~255之间的字符用于拉丁字母表中特殊字符的编码,也因此得名。然而亚洲和非洲语言并不能被8位字符集支持,仅汉语字母表就拥有80000多字符,因此出现了Unicode编码。

Unicode编码将汉语、日语、越南语中相似字符结合,在不同语言里使用不同字符表示不同的字,最多需要2个字节即可编码地球上几乎所有地区的文字。由于Unicode只是一组字符设定或者说是从数字和字符之间的逻辑映射的概念编码,它并没有指定码点如何在计算机上进行存储。因此Unicode出现了不同的编码方案,比如UTF-8编码方案,其中8表示编码的最小单位为8位即1字节,UTF-16编码方案则表示最小单位为2字节。在众多Unicode编码方案中由于UTF-8可以兼容ASCII而被广泛应用。

广义的Unicode指的是一个标准,定义了字符集及其编码规则,即Unicode字符集和UTF-8、UTF-16编码等。狭义上Unicode与UTF-8类似均是一种字符集。

字符集会为每个字符分配一个唯一的ID,平时使用的字符在Unicode字符集中均存在一个唯一的ID。比如小写字母a在Unicode字符集和ASCII中编码都是97。不同国家的字符集中相同字符对应的ID互不相同。

Go的unicode包中内置了用于测试字符的函数,返回值均为布尔值。

字符测试函数 描述
unicode.IsLetter(ch) 判断是否为字母
unicode.IsDigit(ch) 判断是否为数字
unicode.IsSpace(ch) 判断是否为空白字符

UTF-8

  • UTF-8是以8位(bit)为一个编码单位的可变长编码,它会见一个码位编码为1~4个字节。

UTF-8(Universal Character Set/Unicode Transformation Format,8位元)是针对Unicode的一种可变长度字符编码,用于表示Unicode标准中的任何字符,其编码中第一个字节仍与ASCII相容,使得处理ASCII字符的程序无需或仅需少许修改后便可继续使用。因此,UTF-8已成为电子邮件、网页及其它存储或传送文本应用中优先采用的编码。

UTF-8是一种广泛使用的编码格式,是文本文件的标准编码,XML和JSON都使用UTF-8编码标准。UTF-8编码标准对占用字节的长度具有不定性。因此在Go语言中字符串根据需要可能会占用1~4个字节,而Java语言中则使用使用2个字节。Go语言这样做不仅减少了内存和硬盘空间占用,同时也不用像其它语言一样需要对使用UTF-8字符集的文本进行编码和解码。

由于采用UTF-8编码,Go语言中的字符串可以包含文本,而文本是世界上任何语言的混合,因而不会造成页面的混乱和限制。

  • UTF-8是一种编码规则,即将Unicode中的字符的ID以某种方式进行编码。
  • UTF-8是一种变长编码规则,从1到4个字节不等。

UTF-8编码规则

  • 0xxxx xxx表示0到127,兼容ASCII字符集。
  • 从128到0x10 ffff表示其他字符

根据UTF-8编码规则,拉丁文语系的字符编码一般每个字符会占用一个字节,中文每个字符则占用3个字节。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容

  • 字符串表示不可改变的字节序列 字符串虽然可以包含任意数据,但通常指用来包含人类可读的文本。 字符串是一种值类型且值...
    JunChow520阅读 1,090评论 0 1
  • 本文将讲解Go中字符串相关的知识。 1 编码知识 在讲解String之前,我们先讲解一下编码。因为在讲解strin...
    链人成长chainerup阅读 224评论 0 0
  • 什么是 string ? 标准库builtin的解释: 简单的来说字符串是一系列 8 位字节的集合,通常但不一定代...
    小小小超子阅读 1,683评论 0 1
  • 原文链接: https://blog.thinkeridea.com/201902/go/string_ye_sh...
    戚银阅读 473评论 0 2
  • 字符串在 Go 语言中以原生数据类型出现,使用字符串就像使用其他原生数据类型(int、bool、float32、f...
    DreamKing阅读 2,729评论 0 0