Go 常见错误集锦 | 字符串底层原理及常见错误

大家好,我是Go学堂的渔夫子。

string是Go语言的基础类型,在实际项目中针对字符串的各种操作使用频率也较高。本文就介绍一下在使用string时容易犯的一些错误以及如何避免。

01 字符串的一些基本概念

首先我们看下字符串的基本的数据结构:

type stringStruct struct {
    str unsafe.Pointer
    len int
}

由字符串的数据结构可知,字符串只包含两个成员:

  • stringStruct.str:一个指向底层数据的指针
  • stringStruct.len:字符串的字节长度,非字符个数。

假设,我们定义了一个字符串 “中国”, 如下:

a := "中国"

因为Go语言对源代码默认使用utf-8编码方式,utf-8对”中“使用3个字节,对应的编码是(我们这里每个字节编码用10进制表示):228 184 173。同样“国”的utf-8编码是:229 155 189。如下存储示意图:

image

02 rune是什么

要想理解rune,就会涉及到unicode字符集和字符编码的概念以及二者之间的关系。

unicode字符集是对世界上多种语言字符的通用编码,也叫万国码。在unicode字符集中,每一个字符都有一个对应的编号,我们称这个编号为code point,而Go中的rune类型就代表一个字符的code point

字符集只是将每个字符给了一个唯一的编码而已。而要想在计算机中进行存储,则必须要通过特定的编码转换成对应的二进制才行。所以就有了像ASCII、UTF-8、UTF-16等这样的编码方式。而在Go中默认是使用UTF-8字符编码进行编码的。所有unicode字符集合和字符编码之间的关系如下图所示:

image

我们知道,UTF-8字符编码是一种变长字节的编码方式,用1到4个字节对字符进行编码,即最多4个字节,按位表示就是32位。所以,在Go的源码中,我们会看到对rune的定义是int32的别名:

// rune is an alias for int32 and is equivalent to int32 in all ways. It is
// used, by convention, to distinguish character values from integer values.
type rune = int32

好,有了以上基础知识,我们来看看在使用string过程中有哪些需要注意的地方。

03 strings.TrimRight和strings.TrimSuffix的区别

strings.TrimRight函数

该函数的定义如下:

func TrimRight(s, cutset string) string

该函数的功能是:从s字符串的末尾依次查找每一个字符,如果该字符包含在cutset中,则被移除,直到遇到第一个不在cutset中的字符。例如:

fmt.Println(strings.TrimRight("123abbc", "bac"))

执行示例代码,会将字符串末尾的abbc都去除掉,打印出"123"。执行逻辑如下:

image

strings.TrimSuffix函数

该函数是将字符串指定的后缀字符串移除。定义如下:

func TrimSuffix(s, suffix string) string

此函数的实现原理是,从字符串s中截取末尾的长度和suffix字符串长度相等的子字符串,然后和suffix字符串进行比较,如果相等,则将s字符串末尾的子字符串移除,如果不等,则返回原来的s字符串,该函数只截取一次。

我们通过如下示例来了解下其执行逻辑:

fmt.Println(strings.TrimSuffix("123abab", "ab"))

我们注意到,该字符串末尾有两个ab,但最终只有末尾的一个ab被去除掉,保留”123ab"。执行逻辑如下图所示:

image

以上的原理同样适用于strings.TrimLeft和strings.Prefix的字符串操作函数。 而strings.Trim函数则同时包含了strings.TrimLeft和strings.TrimRight的功能。

04 字符串拼接性能问题

拼接字符串是在项目中经常使用的一个场景。然而,拼接字符串时的性能问题会常常被忽略。性能问题其本质上就是要注意在拼接字符串时是否会频繁的产生内存分配以及数据拷贝的操作

我们来看一个性能较低的拼接字符串的例子:

func concat(ids []string) string {
    s := ""
    for _, id := range ids {
        s += id
    }
    return s
}

这段代码执行逻辑上不会有任何问题,但是在进行 s += id进行拼接时,由于字符串是不可变的,所以每次都会分配新的内存空间,并将两个字符串的内容拷贝到新的空间去,然后再让s指向新的空间字符串。由于分配的内存次数多,当然就会对性能造成影响。如下图所示:

image

那该如何提高拼接的性能呢?可以通过strings.Builder进行改进。strings.Builder本质上是分配了一个字节切片,然后通过append的操作,将字符串的字节依次加入到该字节切片中。因为切片预分配空间的特性,可参考切片扩容,以有效的减少内存分配的次数,以提高性能

func concat(ids []string) string {
    sb := strings.Builder{} 
    for _, id := range ids {
        _, _ = sb.WriteString(id) 
    }
    return sb.String() 
}

我们看下strings.Builder的数据结构:

type Builder struct {
    addr *Builder // of receiver, to detect copies by value
    buf  []byte
}

由此可见,Builder的结构体中有一个buf []byte,当执行sb.WriteString(id)方法时,实际上是调用了append的方法,将字符串的每个字节都存储到了字节切片buf中。如下图所示:

image

上图中,第一次分配的内存空间是8个字节,这跟Go的内存管理有关系,网上有很多相关文章,这里不再详细讨论。

如果我们能提前知道要拼接的字符串的长度,我们还可以提前使用Builder的Grow方法来预分配内存,这样在整个字符串拼接过程中只需要分配一次内存就好了,极大的提高了字符串拼接的性能。如下图所示及代码:

image

示例代码:

func concat(ids []string) string {
    total := 0
    for i := 0; i < len(ids); i++ { 
        total += len(ids[i])
    }
    
    sb := strings.Builder{}
    sb.Grow(total) 
    for _, id := range ids {
        _, _ = sb.WriteString(id)
    }
    return sb.String()
}

strings.Builder的使用场景一般是在循环中对字符串进行拼接,如果只是拼接两个或少数几个字符串的话,推荐使用 "+"操作符,例如: s := s1 + s2 + s3,该操作并非每个 + 操作符都计算一次长度,而是会首先计算三个字符串的总长度,然后分配对应的内存,再将三个字符串都拷贝到新申请的内存中去。

05 无用字符串的转换

我们在实际项目中往往会遇到这种场景:是选择字节切片还是字符串的场景。而大多数程序员会倾向于选择字符串。但是,很多IO的操作实际上是使用字节切片的。其实,bytes包中也有很多和strings包中相同操作的函数。

我们看这样一个例子:实现一个getBytes函数,该函数接收一个io.Reader参数作为读取的数据源,然后调用sanitize函数,该函数的作用是去除字符串内容两端的空白字符。我们看下第一个实现:

func getBytes(reader io.Reader) ([]byte, error) {
 b, err := io.ReadAll(reader)
 if err != nil {
 return nil, err
 }
 // Call sanitize
 return []byte(sanitize(string(b))), nil
}

函数sanitize接收一个字符串类型的参数的实现:

func sanitize(s string) string {
 return strings.TrimSpace(s)
}

这其实是将字节切片先转换成了字符串,然后又将字符串转换成字节切片返回了。其实,在bytes包中有同样的去除空格的函数bytes.TrimSpace,使用该函数就避免了对字节切片到字符串多余的转换。

func sanitize(s []byte) []byte {
    return bytes.TrimSpace(s)
}

06 子字符串操作及内存泄露

字符串的切分也会跟切片的切分一样,可能会造成内存泄露。下面我们看一个例子:有一个handleLog的函数,接收一个string类型的参数log,假设log的前4个字节存储的是log的message类型值,我们需要从log中提取出message类型,并存储到内存中。下面是相关代码:

func (s store) handleLog(log string) error {
    if len(log) < 4 {
        return errors.New("log is not correctly formatted")
    }
    message := log[:4]
    s.store(message)
    // Do something
}

我们使用log[:4]的方式提取出了message,那么该实现有什么问题吗?我们假设参数log是一个包含成千上万个字符的字符串。当我们使用log[:4]操作时,实际上是返回了一个字节切片,该切片的长度是4,而容量则是log字符串的整体长度。那么实际上我们存储的message不是包含4个字节的空间,而是整个log字符串长度的空间。所以就有可能会造成内存泄露。 如下图所示:

image

那怎么避免呢?使用拷贝。将uuid提取后拷贝到一个字节切片中,这时该字节切片的长度和容量都是36。如下:

func (s store) handleLog(log string) error {
 if len(log) < 36 {
 return errors.New("log is not correctly formatted")
 }
 uuid := string([]byte(log[:36])) 
 s.store(uuid)
 // Do something
}

07 小结

字符串是Go语言的一种基本类型,在Go语言中有自己的特性。字符串本质上是一个具有长度和指向底层数组的指针的结构体。在Go中,字符串是以utf-8编码的字节序列将每个字符的unicode编码存储在指针指向的数组中的,因此字符串是不可被修改的。在实际项目中,我们尤其要注意字符串和字节切片之间的转换以及在字符串拼接时的性能问题。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352

推荐阅读更多精彩内容