四、 字符串
在Lua语言中,字符使用8个比特位来存储。优先考虑UTF-8编码,因为从Lua 5.3开始提供了一个帮助使用UTF-8编码的函数库。
要获取字符串的字符长度,使用 #
要连接字符串,使用连接符 ..
> a = 'Hello'
> #a
5
> a ..' world'
Hello world
4.1 字符串常量
字符串常量可以用双引号也可以用单引号,唯一的区别是,双引号中可以直接输入单引号,单引号中可以直接输入双引号而不需要转义
> a = "a line 'LION' wow"
> b = 'a row "ROW" gaga'
> a
a line 'LION' wow
> b
a row "ROW" gaga
Lua语言支持以下C语言风格的转移字符:
\a 响铃
\b 退格(back space)
\f 换页(form feed)
\n 换行(newline)
\r 回车(carriage return)
\t 水平制表符(horizontal tab)
\v 垂直制表符(vertical tab)
\\ 反斜杠(backslash)
\" 双引号(double quote)
\' 单引号(single quote)
从Lua 5.3开始,可以使用转义序列\u{h...h}来声明UTF-8字符,花括号中可以支持任意有效的十六进制
> "\u{3b1} \u{3b2} \u{3b3}"
α β γ
4.2 长字符串/多行字符串
> a = [[
>>
>> Hello
>> world!
>> I come from China!
>> ]]
> a
Hello
world!
I come from China!
> a = [[
>> I show you a expression
>> a=b[c[i]] --我还没输入完,就结束啦
>
可以看到上面倒数第二行,如果出现这样的表达式包含了]],那我们就没法按预期一样的输入多行字符串,所以最好在[[加多个=号,如:
> a = [=[
>> I show you a expression
>> a=b[c[i]]
>> express end
>> ]=]
> a
I show you a expression
a=b[c[i]]
express end
>
对注释而言,这种机制也同样有效,可以使用--[
=[和--]=]来进行长注释
Lua 5.2及其之后引入了转义序列\z,这个没太看懂???
4.3 强制类型转换
算数操作符会把字符串强制转换成数值,但比较操作符不会,连接操作符会把数值强制转换成字符串
- tonumber函数
将一个字符串转换成数值,使用tonumber函数,当这个字符串的内容不能表示为有效数字时,返回nil;默认情况下,函数tonumber使用的是十进制,但也可以指明二进制到三十六进制之间的任意
> tonumber('23')
23
> tonumber('10010',2)
18
> tonumber('0x14',16)
nil
> tonumber('14',16)
20
> tonumber('-ZZ',16)
nil
> tonumber('-ZZ',36)
-1295
- tostring函数
将数值转换成字符串可用该函数,但是要注意转换后的长度,如:
> tostring(10.0)
10.0
> tostring(10.0) == '10'
false
> tostring(10)
10
> tostring(10) == '10'
true
- 比较操作符
比较操作符不会进行强制转换,看例子
> 2 < "15"
stdin:1: attempt to compare number with string
stack traceback:
stdin:1: in main chunk
[C]: in ?
> "2" < "15"
false
> "2" > "15"
true
> "2" > "1"
true
> "4" > "15"
true
比较操作符检测到类型不一致时会抛异常,比较字符串的时候是以字符顺序,"two" > "fiftween"
4.4 字符串标准库
Lua语言解释器本身对字符串操作只限制于:创建、连接、比较、获取字符串的长度。其他的功能,如查找子字符串、替换字符串等来自字符串标准库。我们看下字符串标准库的功能。
> string.len('Hello')
5
> string.len('Hello') == #'Hello'
true
> string.rep('abc',3) --返回字符串'abc',重复3次的结果
abcabcabc
> string.reverse('Hello') --字符串翻转
olleH
> string.lower('Hello')
hello
> string.upper('Hello')
HELLO
> a = '[Hello]'
> string.sub(a,2,-2)
Hello
> string.char(97,98,100)
abd
> string.byte('Hello',2)
101
> string.byte('Hello')
72
> string.byte('Hello',2,3)
101 108
> string.format("x=0x%x",200)
x=0xc8
> string.format("x=%f",200)
x=200.000000
> string.format("x=%02d",5)
x=05
> string.format("x=%.2f",5.43654)
x=5.44
> string.find('Hello','ell')
2 4
> string.find('Hello 4 (world)','%a+%s*%d%s*%(%a+%)')
1 15
> string.gsub("Lua is cute", "cute", "great")
Lua is great 1
string.sub(s,i,j)从字符串s中提取第i个到第j个字符(包括第i个和第j个字符,字符串的第一个字符索引为1),该函数也支持负索引,-1代表字符串的最有一个字符。
string.char 接收0个或多个整数作为参数,然后将每个整数转换成对应的字符,最后返回由这些字符连接而成的字符串。
string.byte(s,j)返回字符串s中第i个字符的内部数值表示,该函数的第二个参数是可选的,若不填,则返回字符串s中第一个字符的内部数值。一种常见的写法{string.byte(s,1,-1)},该表达式会创建一个由字符串s中的所有字符代码组成的表。(Lua语言限制了栈大小,所以也限制了一个函数的返回值的最大个数,默认是最大为一百万。因此,这个技巧不能用于大小超过1MB的字符串)
string.format 进行字符串格式化和将数值输出为字符串的强大工具。格式化字符串的指示符:%s,%d,%x,%f,分别表示字符串、十进制、十六进制、浮点数。%.4f 指定浮点数保留小数位第4位,%02d 表示一个十进制数至少由两个数字组成,不足两个数字的用0补齐。详情可参考C语言的printf函数的相关文档,lua和其通用。
string.find 在指定的字符串中进行模式搜索,返回搜索到的开始位置和结束位置,否则返回nil
string.find 把所有的匹配模式用另一个字符串替换,第二个返回值是发生替换的次数
4.5 Unicode编码
这里只针对Lua 5.3及其以上版本。比较复杂,看不太懂?????