注:本文所有代码均经过Python 3.7实际运行检验,保证其严谨性。
字符串的表示
Python提供了4种表示字符串的方法:
s1 = '我'
s2 = "我"
s3 = '''我'''
s4 = """我"""
大多数情况下,以上4种字符串的表示效果是一样的,只要注意前后的引号一定是成对的;换句话说,前面是单引号后面一定也是单引号,前面是3个双引号,后面句不能用3个单引号结尾。
默认来说,单纯的字符串一般多用第1种,即两个单引号。3个单引号和3个双引号有特殊的用途,就是它们可以用于多行字符串引用,如下面的例子:
s = '''
人生到处知何似,应似飞鸿踏雪泥:
泥上偶然留指爪,鸿飞那复计东西。
老僧已死成新塔,坏壁无由见旧题。
往日崎岖还记否,路长人困蹇驴嘶。'''
print(s)
<<< # 正确输出,且是分行的。
人生到处知何似,应似飞鸿踏雪泥:
泥上偶然留指爪,鸿飞那复计东西。
老僧已死成新塔,坏壁无由见旧题。
往日崎岖还记否,路长人困蹇驴嘶。
<<<
这种这种功能是2个单引号或2个双引号表示法所不能做到的。如果多行字符串用2个单引号或2个双引号来表示的话,系统会报错。如下所示:
s = '人生到处知何似,应似飞鸿踏雪泥:
泥上偶然留指爪,鸿飞那复计东西。
老僧已死成新塔,坏壁无由见旧题。
往日崎岖还记否,路长人困蹇驴嘶。'
print(s)
<<<
File "C:\xxxxx\test.py", line 1
s = '人生到处知何似,应似飞鸿踏雪泥:
^
SyntaxError: EOL while scanning string literal
<<<
转义符\
转义符表达特定字符的本意。
转义符和某些字母搭配有固定的意思,比如
"\b"回退,"\n"换行(光标移动到下行首),"\r"回车(光标移动到本行首)等。
字符串操作符
n * x 或 x * n:复制n次字符串x。
字符串处理函数
hex(x):整数x转化为以字符串形式表示的十六进制的数。
oct(x):整数x转化八进制以字符串形式表示的八进制的数。
chr(u):u为Unicode编码,返回其对应的字符。
ord(x):x为字符,返回其对应的Uniocde编码。比如ord("A")输出65,ord("B")输出66,ord("a")输出97。
Unicode编码
Python 3的字符串的编码方式
- 统一字符编码,即覆盖几乎所有字符的编码方式。
- 0到1114111(0x10FFFF)空间,每个编码对应一个字符。
- Python字符串中每个字符都是Unicode编码字符。
for i in range(12):
print(chr(9800 + i), end = "")
<<<♈♉♊♋♌♍♎♏♐♑♒♓
以上是输出Unicode中十二星座的符号。
字符串处理方法
“方法”(method),在编程中是一个专有名词。
“方法”特指<a>.<b>()风格中的函数<b>()。
方法本身也是函数,但与<a>有关,<a>.<b>()风格(面向对象编程)使用。<a>.<b>()就是对象.方法()。a是对象,b是方法。
字符串和变量都是<a>,也就是对象,存在一些方法。
字符串的方法及引用
str.lower()或str.upper()——返回字符串的副本,全部字符小写/大写。
str.split(sep=None, num=-1)——返回一个列表。
其中,sep是separater的前三个字母,表示分隔符。sep分隔符默认为所有的空字符,包括空格、换行(\n)、制表符(\t)等,也可以为空(即不带任何东西,不带引号,如(str.split()),也可以为空格(如str.split(" ")),但不能为空字符串(str.split("")),否则会报错ValueError: empty separator;num表示分隔的次数,默认为-1,即全部分隔。
此方法可以将字符串转化成列表。如"A, B, C".split(",")结果为['A', 'B', 'C']。
s = 'a-b-c'
l = s.split('-')
print(l)
l = s.split() #分隔符sep为空的情况。
print(l)
l = s.split('-', 1) #分隔次数为1的情况。
print(l)
<<<
['a', 'b', 'c']
['a-b-c'] #分隔符sep为空的情况。#
['a', 'b-c'] #分隔次数为1的情况。#
<<<
str.count(sub)——返回子串sub在str中出现的次数。
str.replace(old, new)——返回字符串str的副本,其中所有old子串被替换为new。
str.center(width[, fillchar])——字符串str根据宽度width居中,fillchar可选。
s1 = "Python"
s2 = s1.center(20, "=")
print("s2是:")
print(s2)
print("len(s2) =", len(s2))
<<<
s2是:
=======Python======= #字符串s2的长度len为20
len(s2) = 20
<<<
str.strip()——返回str的副本,这个副本原字符串的头和尾的空格,以及位于头尾的\n \t之类的字符给删掉了。注意,字符中间的空格等符号不删除。比如" Py thon ".strip()返回为"Py thon"。
str.strip(chars)——从str中去掉在其左侧和右侧chars字符串中含有的字符。如"= python= ".strip(" =np")的输出为"ytho"。
sep.join(seq)——sep表示分隔符,可以为空,但当sep为空时,就没有分隔符了。seq表示要连接的元素序列,比如字符串、元组、字典、集合。如果序列里的元素为int,必须转化为str才能使用该方法。实现的效果是,把seq转换为字符串,并且在seq中的除最后元素外每个元素后增加一个sep,返回一个以分隔符sep连接各个元素后生成的字符串。此方法主要为了字符增加分隔符,将列表等seq转化为字符串。
值得注意的是,字典虽然是无序的,但是使用了sep.join(seq)方法后,输出的字符串只输出键而不输出值,而且其键输出的顺序是按照字典本身的顺序来的。集合则遵循无序的原则。
s = "abcde" # seq为字符串时
l = ['a', 'b', 'c', 'd', 'e'] # seq为列表时
d = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
S = {'a', 'b', 'c', 'd', 'e'}
i = '' # sep为空
j = "-" # sep不为空
print("sep为空时:字符串转化为{},列表转化为{}。".format(i.join(s), i.join(l)))
print("sep不为空时:字符串转化为{},列表转化为{}。".format(j.join(s), j.join(l)))
print("sep为空时:字典转化为{},集合转化为{}。".format(i.join(d), i.join(S)))
print("sep不为空时:字典转化为{},集合转化为{}。".format(j.join(d), j.join(S)))
<<<
sep为空时:字符串转化为abcde,列表转化为abcde。
sep不为空时:字符串转化为a-b-c-d-e,列表转化为a-b-c-d-e。
sep为空时:字典转化为abcde,集合转化为ceabd。
sep不为空时:字典转化为a-b-c-d-e,集合转化为c-e-a-b-d。
<<<
上述字符串的诸多方法中,str.split(sep=None, num=-1)和sep.join(seq)两个可能是比较重要且容易弄混的。它们的重要性在于它们能够使得字符串和列表(后面要学的一种重要数据类型)之间互相转换。请对它们稍微留意一二,多看看它们在本文里相应的例子。
字符串的索引和切片
字符串还有一种非常重要的操作,也是最常用的操作之一,那就是切片(slicing)。
而字符串的切片操作是根据索引(index)进行的,其目的是从字符串提取里面的元素或子串。
索引(indexing)
任意一个字符串,除了有其字面上的元素外,其实还有字面外的隐藏元素,也就是字面元素对应的“编号”。比如s = 'abc','a'不光是s中的元素,还是s中的第1个元素。
Python中字符串有两套编号:
- 从左向右的编号,采用非负整数编号。从0开始编号,向右依次加1。对s = 'abc'而言,s[0] = 'a'表示s的第1个元素,s[1] = 'b'表示s的第2个元素,依此类推。
- 从右向左的编号,采用负整数编号。从-1开始,向左依次减1。对s = 'abc'而言,s[-1] = 'c'表示s的倒数第1个元素,s[-2] = 'b'表示s的
倒数第2个字符,依此类推。
s = 'abc'
s[0] # s的第1个元素
Out[10]: 'a'
s[1]
Out[11]: 'b'
s[-1] # s的倒数第1个元素
Out[12]: 'c'
s[-2]
Out[13]: 'b'
切片(Slicing)
切片语法的原型是s[start:stop:stepSize],其中start、stop和stepSize三个参数均是可选参数。
start:切片开始的元素的索引(index),该索引对应的元素包含在切片后的字符串当中。
stop:切片结束的元素的索引(index),该索引对应的元素不包含在切片后的字符串当中。
stepSize:切片时的步长,默认为1。
要正确理解切片的这几个函数。请参考range()函数中的同样的参数,它们的含义是相通的。range()函数详解请移步Python零基础入门学习02:Python基本数据类型:数字类型查看最后一部分。
切片语法的最简形式是s[:],其效果就是s字符串本身,即s[:]=s。其简单形式还有s[::],效果等同于s[:]。还有s[start: : ]、s[:stop:]、s[: :stepSize]等形式。
'abc'[1:3],表示从index=1的元素开始获取,直到取到index=3的元素,但不获取index=3的元素。这里是切片的几个例子:
s = 'abc'
s[1:3]
Out[15]: 'bc'
s[:]
Out[16]: 'abc'
s[1:]
Out[17]: 'bc'
s[1::2]
Out[18]: 'b'
To be continued.