某个午后逛Golang中国社区,看到一个问题
一个简单的字符串性能测试
凭着对一些语言的浅薄了解,稍微回答了下:
"在Java中也得到相同的结果.
Go/Java/C#这类静态语言中,String类型的value是不可变的.每次对字符串的”+”操作,都需要重新复制一遍原字符串.
所以这些语言涉及到对长字符串的操作,都不推荐使用”+”,而是类似Join或者切片之类的东西."
但是后来才想起,Python中的String类似也是不可变的.这么一来为什么我的回答就错了.
既然String类型不可变,在Python中势必会生成新的对象.可是为什么速度那么快 ?
在Google搜了一圈找不到可用的信息,去看源码又不知道入口在哪.于是只能上StackOverflow提问了.
What is the different from string's “+” operation between Golang and Python?
目前为止StackOverflow还没有一个回答,但热心网友对该问题的评论已经给出了很多重要的信息.
顺着他们给出的信息,加上我自己的探索,做出如下的总结:
-
在Python中,对字符串的'+='操作,是被优化过的
在Python中String显然是不可变类型,但解释器(指CPython,下同)遇到形如 str_x += str_y 或者 str_x = str_x + str_y的表达式,还是会取巧得改变String的值,但要求很严格:左值没有被其他表达式引用,且满足二元操作.
s = '' for i in range(100000): s += 'test' # or s = s + 'test' #Out: 0:00:00.019121
但是,若不满足二元操作或被其他表达式引用,即像这样:
str_x = str_x + str_y + str_z
或
str_x += str_x + str_y + str_z
或
str_x = str_x + str_y str_a += str_x #(↑循环10w次飙完了我的内存)
解释器就不会进行优化.
-
还是建议不要使用'+='操作,应该使用join函数.
尽管这样写有可能让代码看起来更简洁,但一留神就容易出错.当数据量非常大时,就等着哭吧,而且有可能因为不断进行新对象的创建,又被其他表达式引用导致无法被GC清除掉,一下子彪完你的内存,上面就是一个例子.
-
Go的优化方法
Go或Java这类语言中String类型是严格不变的,不会有类似Python的取巧优化.下面给出两个来自StackOverflow的Go字符串拼接的正确姿势:
- 使用bytes.Buffer类型:
var buffer bytes.Buffer for n := 0; n < 100000; n++ { buffer.WriteString("test") }
- 使用copy函数
bs := make([]byte, 100000) bl := 0 for n := 0; n < 100000; n++ { bl += copy(bs[bl:], "test") }
方法二是效率是方法一的15倍左右,而方法一是"+="操作的10w倍.
- 使用bytes.Buffer类型: