iOS正则表达式和NSRegularExpression

这篇文章其实是在学习正则表达式时网上一些资料的整合,所以只能算是一个总结性文章,不是自己原创,感谢各位的分享。参考文章和网站在文章结尾。

1.概念

正则表达式:描述符合某些规则字符串的工具。
正则表达式经常用于匹配符合规则的字符串,然后对符合规则的字符串进行处理。

在iOS中常用的场景包括:输入框内输入内容的限制,特定文本的判定(比如手机号、邮箱、密码等),对文本内特定字符进行搜索,进行富文本化或替换等。

2.基本规则

正则表达式基本上由一些特定的字符和表达式构成,所以理解这些字符或表达式是学习的基础。

元字符:

表1.常用元字符
代码 说明
. 匹配出换行符意外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束(不匹配标点符号或者换行符,只匹配一个位置)
^ 匹配字符串的开始
$ 匹配字符串的结束

字符转义:
如果想使用元字符本身的话,需要用转义字符,即\*表示*字符。

反义:
有时候需要查找不属于某个简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义。

表2.常用反义符号
代码/语法 说明
\W 匹配任意不是字母、数字、下划线、汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符

重复:

表3.常用的限定符
代码/语法 说明
* 重复零次或者更多次
+ 重复一次或者更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

范围:
自定义匹配集合使用[]。比如数字范围[0-9]。

分支条件:
如果有几种规则,满足其中任意一种都应当匹配。不同的规则用 | 隔开,这就是分支条件。
匹配分支条件时,会从左到右的测试每个条件,如果满足了某个分支的话,就不会再管其他条件。

分组:
可以用()小括号来指定子表达式(即分组)。可以对分组进行重复。

正则表达式常用分组.png

捕获:
默认情况下每个分组会自动拥有一个组号,从左到右,从1开始。可以用\1代表分组1匹配的文本。
可以使用(?<name>exp)来指定组名,并用\k<name>来捕获。

零宽断言
零宽断言是指定满足一定条件(即断言)的位置。
负向零宽断言:如果我们只是想要确保某个字符没有出现,但并不想去匹配它时就可以使用负向领宽断言,因为它只匹配一个位置,并不消费任何字符。

注释
要包含注释的话最好启用“忽略模式里的空白符”选项。这样在#后面到这一行结束的所有文本都将被当成注释忽略掉。
比如:

  (?<=    # 断言要匹配的文本的前缀
  <(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)
  )       # 前缀结束
  .*      # 匹配任意文本
  (?=     # 断言要匹配的文本的后缀
  <\/\1>  # 查找尖括号括起来的内容:前面是一个"/",后面是先前捕获的标签
  )       # 后缀结束

贪婪与懒惰
当正则表达式中包含能接受重复的限定服时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。这被称为贪婪匹配。
懒惰匹配与此相反,在能使整个匹配成功的前提下匹配尽可能少的字符。

表5.懒惰限定符
代码/语法 说明
*? 重复任意次,但尽可能少重复
+? 重复一次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

处理选项
一般会有正则表达式的处理选项,比如:忽略大小、忽略空白、显示捕获等,根据开发环境的不同会有不同选项,注意选择使用。

平衡组/递归匹配

  • (?'group')把捕获的内容命名为group,并压入堆栈(Stack)
  • (?'-group')从堆栈上弹出最后压入堆栈的名为group的捕获内容,如果堆栈本来为空,则本次匹配失败
  • (?(group)yes|no)如果对战上存在以名为group的内容的话,继续匹配yes内容,否则匹配no内容
  • (?!)零宽负向先行断言,由于没有后缀表达式,视图匹配总是失败

平衡组常见的应用是匹配HTML。

例子:匹配<>成对出现的字符串。

<                         #最外层的左括号
    [^<>]*                #最外层的左括号后面的不是括号的内容
    (
        (
            (?'Open'<)    #碰到了左括号,在黑板上写一个"Open"
            [^<>]*       #匹配左括号后面的不是括号的内容
        )+
        (
            (?'-Open'>)   #碰到了右括号,擦掉一个"Open"
            [^<>]*        #匹配右括号后面不是括号的内容
        )+
    )*
    (?(Open)(?!))         #在遇到最外层的右括号前面,判断黑板上还有没有没擦掉的"Open";如果还有,则匹配失败
>                         #最外层的右括号

3.常用正则表达式

说明 正则表达式
手机号 ^((13[0-9])|(15[012356789])|(17[0,0-9])|(18[0,0-9]))\d{8}$
邮箱 ^([a-z0-9_.-]+)@([\da-z.-]+).([a-z.]{2,6})$
身份证 [1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$)|([1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$
短信验证码 \d{6}
中文字符 [\u4e00-\u9fa5]
用户名 ^[a-z0-9_-]{3,16}$
密码 ^[a-z0-9_-]{6,18}$
QQ号 [1-9][0-9]{4,}
国内电话 \d{3}-\d{8} \d{4}-\d{7}
URL ^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-]*)*/?$
IP ^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?).){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$

可以点击下面网址查看更多正则表达式常用正则表达式,使用之前自己最好再验证一下,有一些也不一定准确。

4.正则表达式在iOS中的应用

iOS中正则表达式有三种使用方式

1). 利用NSPredicate(谓词)匹配

例如邮箱匹配 :

   NSString *email = @"niji_saki@163.com";
   NSString *regex = @"^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$";
   NSPredicate *predicate = [NSPredicate predicateWithFormat:@"SELF MATCH %@", regex];
   BOOL isValid = [predicate evaluateWithObject:email];

2). 利用rangeOfString:option:直接查找

    NSString *searchText = @"// Do any additional setup after loading the view, typically from a nib.";
    NSRange range = [searchText rangeOfString:@"(?:[^,])*\\." options:NSRegularExpressionSearch];
    if (range.location != NSNotFound) {
        NSLog(@"%@", [searchText  substringWithRange:range]);
    }

3).使用正则表达式类

    NSString *searchText = @"// Do any additional   setup after loading the view, typically from a nib.";   
    NSError *error = NULL;
    NSRegularExpression *regex = [NSRegularExpression regularExpressionWithPattern:@"(?:[^,])*\\." options:NSRegularExpressionCaseInsensitive error:&error];
    NSTextCheckingResult *result = [regex firstMatchInString:searchText options:0 range:NSMakeRange(0, [searchText length])];
    if (result) {
        NSLog(@"%@\n", [searchText substringWithRange:result.range]);
    } 

第一种需要学习NSPredicate的写法,第二种之关心匹配结果,第三种效率最高。

5. NSRegularExpression详解

NSRegularExpression是一个用于匹配Unicode字符串的正则表达式类,该类不可变(immutable)。

NSRegularExoression的基本方法是在目标字符串符合正则表达式是调用一个block,这个block中含有匹配结果信息。此外还有其他一些方法在匹配后返回诸如数组、匹配数量、匹配范围、第一次匹配等结果。还有用来匹配后替换字符串的方法。

匹配结果放在NSTextCheckingResult类中,该类中包含匹配的范围、数量、结果类型等变量(iOS11 中新增了rangWithName的方法),同时也提供一些特定的匹配方法,比如针对手机号、日期、地址等的匹配。

NSRegularExpression支持的正则表达式标准在该网站.

具体接口,参见苹果官方的API。需要注意的是:

  • 当没有匹配到内容时,返回的range值为{NSNotFound,0}。
  • 当匹配到的内容有多个时,NSTextCheckingResult的range返回匹配内容范围,range:at:返回匹配内容中的每一个字符的匹配范围。
  • 匹配方法enumerateMatches(in:options:range:using:) 会根据options来确定block调用方式,在block中可以设置bool来决定是否停用匹配。
  • stringByReplacingMatchesInString:options:range:withTemplate:方法,template参数使用$0可以代表匹配的全部字符,使用$1代表第一个字符,依次类推。
  • NSRegularExpression是不可变和线程安全的,因此一个实例可以用在多个线程中进行匹配操作,然而被匹配的字符串在匹配过程是应该是不可变的。

6. iOS正则表达式开源库


[1].30分钟了解正则表达式

[2].iOS中正则表达式的三种使用方式

[3].iOS开发之详解正则表达式

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容