iOS正则表达式和NSRegularExpression

这篇文章其实是在学习正则表达式时网上一些资料的整合，所以只能算是一个总结性文章，不是自己原创，感谢各位的分享。参考文章和网站在文章结尾。

1.概念

正则表达式：描述符合某些规则字符串的工具。
正则表达式经常用于匹配符合规则的字符串，然后对符合规则的字符串进行处理。

在iOS中常用的场景包括：输入框内输入内容的限制，特定文本的判定（比如手机号、邮箱、密码等），对文本内特定字符进行搜索，进行富文本化或替换等。

2.基本规则

正则表达式基本上由一些特定的字符和表达式构成，所以理解这些字符或表达式是学习的基础。

元字符：

表1.常用元字符

代码	说明
.	匹配出换行符意外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束（不匹配标点符号或者换行符，只匹配一个位置）
^	匹配字符串的开始
$	匹配字符串的结束

字符转义：
如果想使用元字符本身的话，需要用转义字符，即\*表示*字符。

反义：
有时候需要查找不属于某个简单定义的字符类的字符。比如想查找除了数字以外，其它任意字符都行的情况，这时需要用到反义。

表2.常用反义符号

代码/语法	说明
\W	匹配任意不是字母、数字、下划线、汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符

重复：

表3.常用的限定符

代码/语法	说明
*	重复零次或者更多次
+	重复一次或者更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

范围：
自定义匹配集合使用[]。比如数字范围[0-9]。

分支条件：
如果有几种规则，满足其中任意一种都应当匹配。不同的规则用 | 隔开，这就是分支条件。
匹配分支条件时，会从左到右的测试每个条件，如果满足了某个分支的话，就不会再管其他条件。

分组：
可以用（）小括号来指定子表达式（即分组）。可以对分组进行重复。

正则表达式常用分组.png

捕获：
默认情况下每个分组会自动拥有一个组号，从左到右，从1开始。可以用\1代表分组1匹配的文本。
可以使用(?<name>exp)来指定组名，并用\k<name>来捕获。

零宽断言
零宽断言是指定满足一定条件（即断言）的位置。
负向零宽断言：如果我们只是想要确保某个字符没有出现，但并不想去匹配它时就可以使用负向领宽断言，因为它只匹配一个位置，并不消费任何字符。

注释
要包含注释的话最好启用“忽略模式里的空白符”选项。这样在#后面到这一行结束的所有文本都将被当成注释忽略掉。
比如：

  (?<=    # 断言要匹配的文本的前缀
  <(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)
  )       # 前缀结束
  .*      # 匹配任意文本
  (?=     # 断言要匹配的文本的后缀
  <\/\1>  # 查找尖括号括起来的内容：前面是一个"/"，后面是先前捕获的标签
  )       # 后缀结束

贪婪与懒惰
当正则表达式中包含能接受重复的限定服时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。这被称为贪婪匹配。
而懒惰匹配与此相反，在能使整个匹配成功的前提下匹配尽可能少的字符。

表5.懒惰限定符

代码/语法	说明
*？	重复任意次，但尽可能少重复
+？	重复一次或更多次，但尽可能少重复
？？	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}？	重复n次以上，但尽可能少重复

处理选项
一般会有正则表达式的处理选项，比如：忽略大小、忽略空白、显示捕获等，根据开发环境的不同会有不同选项，注意选择使用。

平衡组/递归匹配

(?'group')把捕获的内容命名为group，并压入堆栈（Stack）
(?'-group')从堆栈上弹出最后压入堆栈的名为group的捕获内容，如果堆栈本来为空，则本次匹配失败
(?(group)yes|no)如果对战上存在以名为group的内容的话，继续匹配yes内容，否则匹配no内容
(?!)零宽负向先行断言，由于没有后缀表达式，视图匹配总是失败

平衡组常见的应用是匹配HTML。

例子：匹配<>成对出现的字符串。

<                         #最外层的左括号
    [^<>]*                #最外层的左括号后面的不是括号的内容
    (
        (
            (?'Open'<)    #碰到了左括号，在黑板上写一个"Open"
            [^<>]*       #匹配左括号后面的不是括号的内容
        )+
        (
            (?'-Open'>)   #碰到了右括号，擦掉一个"Open"
            [^<>]*        #匹配右括号后面不是括号的内容
        )+
    )*
    (?(Open)(?!))         #在遇到最外层的右括号前面，判断黑板上还有没有没擦掉的"Open"；如果还有，则匹配失败
>                         #最外层的右括号

3.常用正则表达式

说明	正则表达式
手机号	^((13[0-9])\|(15[012356789])\|(17[0,0-9])\|(18[0,0-9]))\d{8}$
邮箱	^([a-z0-9_.-]+)@([\da-z.-]+).([a-z.]{2,6})$
身份证	^{[1-9]\d{5}(18\|19\|([23]\d))\d{2}((0[1-9])\|(10\|11\|12))(([0-2][1-9])\|10\|20\|30\|31)\d{3}[0-9Xx]$)\|(}[1-9]\d{5}\d{2}((0[1-9])\|(10\|11\|12))(([0-2][1-9])\|10\|20\|30\|31)\d{2}$
短信验证码	\d{6}
中文字符	[\u4e00-\u9fa5]
用户名	^[a-z0-9_-]{3,16}$
密码	^[a-z0-9_-]{6,18}$
QQ号	[1-9][0-9]{4,}
国内电话	\d{3}-\d{8}	\d{4}-\d{7}
URL	^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$
IP	^(?:(?:25[0-5]\|2[0-4][0-9]\|[01]?[0-9][0-9]?).){3}(?:25[0-5]\|2[0-4][0-9]\|[01]?[0-9][0-9]?)$

可以点击下面网址查看更多正则表达式常用正则表达式，使用之前自己最好再验证一下，有一些也不一定准确。

4.正则表达式在iOS中的应用

iOS中正则表达式有三种使用方式

1). 利用NSPredicate（谓词）匹配

例如邮箱匹配：

   NSString *email = @"niji_saki@163.com";
   NSString *regex = @"^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$";
   NSPredicate *predicate = [NSPredicate predicateWithFormat:@"SELF MATCH %@", regex];
   BOOL isValid = [predicate evaluateWithObject:email];

2). 利用rangeOfString：option：直接查找

    NSString *searchText = @"// Do any additional setup after loading the view, typically from a nib.";
    NSRange range = [searchText rangeOfString:@"(?:[^,])*\\." options:NSRegularExpressionSearch];
    if (range.location != NSNotFound) {
        NSLog(@"%@", [searchText  substringWithRange:range]);
    }

3).使用正则表达式类

    NSString *searchText = @"// Do any additional   setup after loading the view, typically from a nib.";   
    NSError *error = NULL;
    NSRegularExpression *regex = [NSRegularExpression regularExpressionWithPattern:@"(?:[^,])*\\." options:NSRegularExpressionCaseInsensitive error:&error];
    NSTextCheckingResult *result = [regex firstMatchInString:searchText options:0 range:NSMakeRange(0, [searchText length])];
    if (result) {
        NSLog(@"%@\n", [searchText substringWithRange:result.range]);
    }

第一种需要学习NSPredicate的写法，第二种之关心匹配结果，第三种效率最高。

5. NSRegularExpression详解

NSRegularExpression是一个用于匹配Unicode字符串的正则表达式类，该类不可变（immutable）。

NSRegularExoression的基本方法是在目标字符串符合正则表达式是调用一个block，这个block中含有匹配结果信息。此外还有其他一些方法在匹配后返回诸如数组、匹配数量、匹配范围、第一次匹配等结果。还有用来匹配后替换字符串的方法。

匹配结果放在NSTextCheckingResult类中，该类中包含匹配的范围、数量、结果类型等变量（iOS11 中新增了rangWithName的方法），同时也提供一些特定的匹配方法，比如针对手机号、日期、地址等的匹配。

NSRegularExpression支持的正则表达式标准在该网站.

具体接口，参见苹果官方的API。需要注意的是：

当没有匹配到内容时，返回的range值为{NSNotFound,0}。
当匹配到的内容有多个时，NSTextCheckingResult的range返回匹配内容范围，range:at:返回匹配内容中的每一个字符的匹配范围。
匹配方法enumerateMatches(in:options:range:using:) 会根据options来确定block调用方式，在block中可以设置bool来决定是否停用匹配。
stringByReplacingMatchesInString:options:range:withTemplate:方法，template参数使用$0可以代表匹配的全部字符,使用$1代表第一个字符，依次类推。
NSRegularExpression是不可变和线程安全的，因此一个实例可以用在多个线程中进行匹配操作，然而被匹配的字符串在匹配过程是应该是不可变的。

6. iOS正则表达式开源库

[1].30分钟了解正则表达式

[2].iOS中正则表达式的三种使用方式

[3].iOS开发之详解正则表达式