RUST 学习日记 第14课 ——字符串(二)
0x00 回顾与开篇
最近工作比较忙,更新频率慢了下来,希望大家谅解下。上节课初步了解了Rust的字符串,在Rust中有两种字符串类型,一种是可变长度字符串,也叫字符串切片,另一种则是不可变长度的字符串。也熟悉了简单使用它们的方法。这节课继续讲解字符串,深入到内存剖析Rust字符串。
0x01 可变长度字符串String和向量Vector
联系和区别
上节提到过,可变长度字符串String其实是一个结构体,里面封装了Vec<T>,那么它跟向量又存在什么样的联系和区别呢?具体看下面的表格。
Vec<T> | String | |
---|---|---|
自动释放内存 | 是 | 是 |
可扩展 | 是 | 是 |
::new()和::with_capacity()静态方法 | 是 | 是 |
.reverse()和.capacity()方法 | 是 | 是 |
.push()和.pop()方法 | 是 | 是 |
范围语法s[start...end] | 是 | 是 |
自动转换 | &Vec<T> 到 &[T] | &String 到 &str |
继承方法 | 继承自 &[T] | 继承自 &str |
String的构成
String*类型的分别由三部分构成,分别与其三个方法相对应:
1、as_ptr()
:指向堆中字节虚了的指针
2、len()
:堆中字节序列的字节长度
3、capacity()
:在堆上分配的容量
示例代码如下:
let mut hello = String::with_capacity(15);
hello.push('h');
hello.push('e');
hello.push('l');
hello.push('l');
hello.push('o');
println!("hello 字符串的内容 -> {}", hello);
println!("hello 堆上的指针 -> {:p}", hello.as_ptr());
println!("hello 的容量 -> {}", hello.capacity());
println!("hello 的字节长度 -> {}", hello.len());
println!("hello 栈上的指针 -> {:p}", &hello);
代码运行结果:
hello 字符串的内容 -> hello
hello 堆上的指针 -> 0x1f20a76cd00
hello 的容量 -> 15
hello 的字节长度 -> 5
hello 栈上的指针 -> 0x76a26ff7c0
上面代码首先初始化了一个容量15的字符串hello
。然后使用push
方法,向其中添加了5个char
类型的字符。
然后输出字符串的内容,指针,容量,字节长度。注意最后的&hello
和hello.as_ptr()
两个地址是不一样的。&hello
获取的是字符串变量在栈上的指针地址,而hello.as_ptr()
获取的是hello字符串在堆中字节序列的指针地址。具体内存模型,下面会讲到。
0x02 字符串在内存的表示
为什么Rust要设计两种字符串?它们有什么区别?前面讲了那么多,也都是概念,真正要搞明白它们之间的关系,还要深入到内存里面去剖析。下面就一起来剖析String,&str,str,字面量的关系。
以下面这几个变量为例:
let hello_string = String::from("hello");
let hello_str = &hello_string[1..];
let hello_literal = "world";
hello_string
是一个可变长度的字符串,它在内存中的结果与向量类似,真正的字符串则存放在堆上。在堆上给String分配一个可伸缩缓冲区,因此可以按需来调整其大小。
hello_str
是一个字符串切片,是对其它变量拥有的一段UTF-8文本的引用。它只是“借用”了这些文本而已。&str
其实也是一个胖指针(Fat Pointer),包含实际数据的地址和其长度。可以把&str
想象成一个&[u8]
,只不过他能存储格式完好的UTF-8。
hello_literal
是一个字符串字面量,它通常跟程序的机器码存储在预分配的只读内存区,当程序执行的时候创建,程序退出时会自动释放。
扩展:什么是胖指针(Fat Pointer)?
定义:胖指针(Fat Pointer)是一个双字宽的值,它除了指向对象的地之外,还会额外存储长度信息。
通俗点说,普通指针通常是占内存8个字节,而胖指针则是占内存16个字节,因为它比较宽,所以叫胖指针。如切片(Slice)类型,它保存着指向堆上的地址和长度。
如何理解str类型?
在Rust中是没有GC的,程序的内存由编译器去分配,代码最终编译为LLVM IR,其携带了内存分配的信息。因此,要更合理的分配内存,编译器必须预先知道类型的大小。
然而str
则是无固定大小的字符串,它仅仅是个类型而已,无法确定其大小,在运行时之前没有人知道它的大小。而在Rust中,大部分的类型都是可以在编译期确定大小的类型(Sized Type),如:i32
占4个字节,i64
占8个字节,在程序编译期就可以确定它的大小。当然也存在动态大小的类型(Dynamic Sized Type),经常简称为DST,如:str
,由于它无法在编译期确定大小,因此就不能声明。对于这种情况,在Rust则提供了引用类型,字符串切片的引用类型&str
。因为它是胖指针,可以在编译期确定大小哦。
0x03 小结
str字符串序列存储于程序的堆内存中或者静态只读区。而&str和String都存储在栈上,指针指向str。str在Rust中仅仅作为一个类型存在。那么在一个程序中到底是使用&str还是String呢?由于所有权的知识还没介绍过,所以这里先不讨论这个问题。现在只需知道&str可以引用任何字符串的任意切片即可。在这节课里涉及了很多关于内存的知识,后面我也会抽时间讲下有关内存的一些概念。下节课主要讲解下字符串的简单常用方法。
0x04 本节源码
014 · StudyRust - 码云 - 开源中国 (gitee.com)
下节预告——字符串的常用方法。