这篇文章其实是在学习正则表达式时网上一些资料的整合,所以只能算是一个总结性文章,不是自己原创,感谢各位的分享。参考文章和网站在文章结尾。
1.概念
正则表达式:描述符合某些规则字符串的工具。
正则表达式经常用于匹配符合规则的字符串,然后对符合规则的字符串进行处理。
在iOS中常用的场景包括:输入框内输入内容的限制,特定文本的判定(比如手机号、邮箱、密码等),对文本内特定字符进行搜索,进行富文本化或替换等。
2.基本规则
正则表达式基本上由一些特定的字符和表达式构成,所以理解这些字符或表达式是学习的基础。
元字符:
表1.常用元字符
代码 | 说明 |
---|---|
. | 匹配出换行符意外的任意字符 |
\w | 匹配字母或数字或下划线或汉字 |
\s | 匹配任意的空白符 |
\d | 匹配数字 |
\b | 匹配单词的开始或结束(不匹配标点符号或者换行符,只匹配一个位置) |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结束 |
字符转义:
如果想使用元字符本身的话,需要用转义字符,即\*表示*字符。
反义:
有时候需要查找不属于某个简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义。
表2.常用反义符号
代码/语法 | 说明 |
---|---|
\W | 匹配任意不是字母、数字、下划线、汉字的字符 |
\S | 匹配任意不是空白符的字符 |
\D | 匹配任意非数字的字符 |
\B | 匹配不是单词开头或结束的位置 |
[^x] | 匹配除了x以外的任意字符 |
[^aeiou] | 匹配除了aeiou这几个字母以外的任意字符 |
重复:
表3.常用的限定符
代码/语法 | 说明 |
---|---|
* | 重复零次或者更多次 |
+ | 重复一次或者更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次或更多次 |
{n,m} | 重复n到m次 |
范围:
自定义匹配集合使用[]。比如数字范围[0-9]。
分支条件:
如果有几种规则,满足其中任意一种都应当匹配。不同的规则用 | 隔开,这就是分支条件。
匹配分支条件时,会从左到右的测试每个条件,如果满足了某个分支的话,就不会再管其他条件。
分组:
可以用()小括号来指定子表达式(即分组)。可以对分组进行重复。
捕获:
默认情况下每个分组会自动拥有一个组号,从左到右,从1开始。可以用\1代表分组1匹配的文本。
可以使用(?<name>exp)来指定组名,并用\k<name>来捕获。
零宽断言
零宽断言是指定满足一定条件(即断言)的位置。
负向零宽断言:如果我们只是想要确保某个字符没有出现,但并不想去匹配它时就可以使用负向领宽断言,因为它只匹配一个位置,并不消费任何字符。
注释
要包含注释的话最好启用“忽略模式里的空白符”选项。这样在#后面到这一行结束的所有文本都将被当成注释忽略掉。
比如:
(?<= # 断言要匹配的文本的前缀
<(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)
) # 前缀结束
.* # 匹配任意文本
(?= # 断言要匹配的文本的后缀
<\/\1> # 查找尖括号括起来的内容:前面是一个"/",后面是先前捕获的标签
) # 后缀结束
贪婪与懒惰
当正则表达式中包含能接受重复的限定服时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。这被称为贪婪匹配。
而懒惰匹配与此相反,在能使整个匹配成功的前提下匹配尽可能少的字符。
表5.懒惰限定符
代码/语法 | 说明 |
---|---|
*? | 重复任意次,但尽可能少重复 |
+? | 重复一次或更多次,但尽可能少重复 |
?? | 重复0次或1次,但尽可能少重复 |
{n,m}? | 重复n到m次,但尽可能少重复 |
{n,}? | 重复n次以上,但尽可能少重复 |
处理选项
一般会有正则表达式的处理选项,比如:忽略大小、忽略空白、显示捕获等,根据开发环境的不同会有不同选项,注意选择使用。
平衡组/递归匹配
- (?'group')把捕获的内容命名为group,并压入堆栈(Stack)
- (?'-group')从堆栈上弹出最后压入堆栈的名为group的捕获内容,如果堆栈本来为空,则本次匹配失败
- (?(group)yes|no)如果对战上存在以名为group的内容的话,继续匹配yes内容,否则匹配no内容
- (?!)零宽负向先行断言,由于没有后缀表达式,视图匹配总是失败
平衡组常见的应用是匹配HTML。
例子:匹配<>成对出现的字符串。
< #最外层的左括号
[^<>]* #最外层的左括号后面的不是括号的内容
(
(
(?'Open'<) #碰到了左括号,在黑板上写一个"Open"
[^<>]* #匹配左括号后面的不是括号的内容
)+
(
(?'-Open'>) #碰到了右括号,擦掉一个"Open"
[^<>]* #匹配右括号后面不是括号的内容
)+
)*
(?(Open)(?!)) #在遇到最外层的右括号前面,判断黑板上还有没有没擦掉的"Open";如果还有,则匹配失败
> #最外层的右括号
3.常用正则表达式
说明 | 正则表达式 | |
---|---|---|
手机号 | ^((13[0-9])|(15[012356789])|(17[0,0-9])|(18[0,0-9]))\d{8}$ | |
邮箱 | ^([a-z0-9_.-]+)@([\da-z.-]+).([a-z.]{2,6})$ | |
身份证 | [1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$)|([1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$ | |
短信验证码 | \d{6} | |
中文字符 | [\u4e00-\u9fa5] | |
用户名 | ^[a-z0-9_-]{3,16}$ | |
密码 | ^[a-z0-9_-]{6,18}$ | |
QQ号 | [1-9][0-9]{4,} | |
国内电话 | \d{3}-\d{8} | \d{4}-\d{7} |
URL | ^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-]*)*/?$ | |
IP | ^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?).){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$ |
可以点击下面网址查看更多正则表达式常用正则表达式,使用之前自己最好再验证一下,有一些也不一定准确。
4.正则表达式在iOS中的应用
iOS中正则表达式有三种使用方式
1). 利用NSPredicate(谓词)匹配
例如邮箱匹配 :
NSString *email = @"niji_saki@163.com";
NSString *regex = @"^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$";
NSPredicate *predicate = [NSPredicate predicateWithFormat:@"SELF MATCH %@", regex];
BOOL isValid = [predicate evaluateWithObject:email];
2). 利用rangeOfString:option:直接查找
NSString *searchText = @"// Do any additional setup after loading the view, typically from a nib.";
NSRange range = [searchText rangeOfString:@"(?:[^,])*\\." options:NSRegularExpressionSearch];
if (range.location != NSNotFound) {
NSLog(@"%@", [searchText substringWithRange:range]);
}
3).使用正则表达式类
NSString *searchText = @"// Do any additional setup after loading the view, typically from a nib.";
NSError *error = NULL;
NSRegularExpression *regex = [NSRegularExpression regularExpressionWithPattern:@"(?:[^,])*\\." options:NSRegularExpressionCaseInsensitive error:&error];
NSTextCheckingResult *result = [regex firstMatchInString:searchText options:0 range:NSMakeRange(0, [searchText length])];
if (result) {
NSLog(@"%@\n", [searchText substringWithRange:result.range]);
}
第一种需要学习NSPredicate的写法,第二种之关心匹配结果,第三种效率最高。
5. NSRegularExpression详解
NSRegularExpression是一个用于匹配Unicode字符串的正则表达式类,该类不可变(immutable)。
NSRegularExoression的基本方法是在目标字符串符合正则表达式是调用一个block,这个block中含有匹配结果信息。此外还有其他一些方法在匹配后返回诸如数组、匹配数量、匹配范围、第一次匹配等结果。还有用来匹配后替换字符串的方法。
匹配结果放在NSTextCheckingResult类中,该类中包含匹配的范围、数量、结果类型等变量(iOS11 中新增了rangWithName的方法),同时也提供一些特定的匹配方法,比如针对手机号、日期、地址等的匹配。
NSRegularExpression支持的正则表达式标准在该网站.
具体接口,参见苹果官方的API。需要注意的是:
- 当没有匹配到内容时,返回的range值为{NSNotFound,0}。
- 当匹配到的内容有多个时,NSTextCheckingResult的range返回匹配内容范围,range:at:返回匹配内容中的每一个字符的匹配范围。
- 匹配方法enumerateMatches(in:options:range:using:) 会根据options来确定block调用方式,在block中可以设置bool来决定是否停用匹配。
- stringByReplacingMatchesInString:options:range:withTemplate:方法,template参数使用$0可以代表匹配的全部字符,使用$1代表第一个字符,依次类推。
- NSRegularExpression是不可变和线程安全的,因此一个实例可以用在多个线程中进行匹配操作,然而被匹配的字符串在匹配过程是应该是不可变的。
6. iOS正则表达式开源库
[1].30分钟了解正则表达式
[2].iOS中正则表达式的三种使用方式
[3].iOS开发之详解正则表达式