Go语言的字符串是一个任意字节的常量序列,本质上是只读的字符型数组,这一点和C语言中的char[]
类似,但Go为其封装了一个变量类型称之为string
。
Go语言字符串中的字符使用UTF-8编码表示Unicode文本,因此Go语言中字符串是一个UTF-8字符的序列。每个字符可使用UTF-8编码的一个或多个字节来表示,因此是变宽字符序列。这一点跟Java、C++、Python3中的字符串有着本质的区别,后者使用的是定宽字符序列。
定宽字符序列中单个字符可以被字节索引,而Go语言中只有在字符串只包含7位的ASCII字符时才可以被字节索引,因为Go语言字符串中的字符都采用的是单一的UTF-8字节表示。对于英文文本,Go语言采用8位来表示一个字节,Java或Python则需要16位或更多。采用UTF-8编码使得Go语言无需关心机器码的排列顺序,也无需编码解码来使用其他语言。
Unicode
- Unicode是字符集,UTF-8是Unicode字符集的编码规则。
- 字符集会为每个字符分配一个唯一的ID即码位或码点(Code Point)。
- 编码规则则是将码位转换为字节序列的规则,即编码和解码规则。
字符集中最知名的要数ASCII(American Standard Code for Information Interchange)的8位字符集,它是美国标准信息交换代码的缩写,为美国英语通信设计,由于是8位(bit)等于1字节(byte),即2的8次方共计128个字符组成,包括大小写字母、数字0-9、标点符号、非打印字符(换行符、制表符等)、控制字符(退格、响铃等)组成。
由于ASCII是针对英语设计的,当处理带有音调标号的亚洲文字时就会出现问题,比如汉语拼音。因此,又创建出包含256个字符的ASCII扩展的字符集。其中一种称为IBM字符集,它将值为128~255之间的字符用于画图和画线,以及一些特殊的欧洲字符。另一种8位字符集是ISO 885901Latin-1,它将位于128~255之间的字符用于拉丁字母表中特殊字符的编码,也因此得名。然而亚洲和非洲语言并不能被8位字符集支持,仅汉语字母表就拥有80000多字符,因此出现了Unicode编码。
Unicode编码将汉语、日语、越南语中相似字符结合,在不同语言里使用不同字符表示不同的字,最多需要2个字节即可编码地球上几乎所有地区的文字。由于Unicode只是一组字符设定或者说是从数字和字符之间的逻辑映射的概念编码,它并没有指定码点如何在计算机上进行存储。因此Unicode出现了不同的编码方案,比如UTF-8编码方案,其中8表示编码的最小单位为8位即1字节,UTF-16编码方案则表示最小单位为2字节。在众多Unicode编码方案中由于UTF-8可以兼容ASCII而被广泛应用。
广义的Unicode指的是一个标准,定义了字符集及其编码规则,即Unicode字符集和UTF-8、UTF-16编码等。狭义上Unicode与UTF-8类似均是一种字符集。
字符集会为每个字符分配一个唯一的ID,平时使用的字符在Unicode字符集中均存在一个唯一的ID。比如小写字母a在Unicode字符集和ASCII中编码都是97。不同国家的字符集中相同字符对应的ID互不相同。
Go的unicode
包中内置了用于测试字符的函数,返回值均为布尔值。
字符测试函数 | 描述 |
---|---|
unicode.IsLetter(ch) | 判断是否为字母 |
unicode.IsDigit(ch) | 判断是否为数字 |
unicode.IsSpace(ch) | 判断是否为空白字符 |
UTF-8
- UTF-8是以8位(bit)为一个编码单位的可变长编码,它会见一个码位编码为1~4个字节。
UTF-8(Universal Character Set/Unicode Transformation Format,8位元)是针对Unicode的一种可变长度字符编码,用于表示Unicode标准中的任何字符,其编码中第一个字节仍与ASCII相容,使得处理ASCII字符的程序无需或仅需少许修改后便可继续使用。因此,UTF-8已成为电子邮件、网页及其它存储或传送文本应用中优先采用的编码。
UTF-8是一种广泛使用的编码格式,是文本文件的标准编码,XML和JSON都使用UTF-8编码标准。UTF-8编码标准对占用字节的长度具有不定性。因此在Go语言中字符串根据需要可能会占用1~4个字节,而Java语言中则使用使用2个字节。Go语言这样做不仅减少了内存和硬盘空间占用,同时也不用像其它语言一样需要对使用UTF-8字符集的文本进行编码和解码。
由于采用UTF-8编码,Go语言中的字符串可以包含文本,而文本是世界上任何语言的混合,因而不会造成页面的混乱和限制。
- UTF-8是一种编码规则,即将Unicode中的字符的ID以某种方式进行编码。
- UTF-8是一种变长编码规则,从1到4个字节不等。
UTF-8编码规则
- 0xxxx xxx表示0到127,兼容ASCII字符集。
- 从128到0x10 ffff表示其他字符
根据UTF-8编码规则,拉丁文语系的字符编码一般每个字符会占用一个字节,中文每个字符则占用3个字节。