前言
基本上每个 App 都有登录注册功能,在登录注册时需要验证用户所输入的内容是否符合规定;有时要在字符串中查找并截取符合要求的字符串,这时就需要用到正则表达式。正则表达式看起来晦涩难懂,没有什么规律可循,但是我们并不用深入研究,只需要简单了解,满足日常开发即可。
什么是正则表达式?
正则表达式就是用一个“字符串”来描述一个特征,然后去验证另一个“字符串”是否符合这个特征。比如 表达式“ab+” 描述的特征是“一个 'a' 和 任意个 'b' ”,那么 'ab', 'abb', 'abbbb' 都符合这个特征。
正则表达式可以用来做什么?
- 验证字符串是否符合指定特征,比如验证是否是合法的邮件地址。
- 用来查找字符串,从一个长的文本中查找符合指定特征的字符串,比查找固定字符串更加灵活方便。
- 用来替换,比普通的替换更强大。
元字符
正则表达式语言由两种基本字符类型组成:原义文本字符和元字符。
元字符使正则表达式具有处理能力。所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
常用元字符:
元字符 | 描述 |
---|---|
^ | 匹配输入字符串开始的位置 |
$ | 匹配输入字符串结尾的位置 |
. | 匹配除换行符以外的任意字符 |
| | 或 |
, | 分割 |
[ ] | 包含,默认是一个字符长度 |
[0-9] | 匹配0到9的数字 |
[a-z] | 匹配小写字母 |
[A-Z] | 匹配大写字母 |
[A-Za-z] | 匹配字母 |
[A-Za-z0-9] | 匹配字母数字 |
[^] | 不包含,默认是一个字符长度 |
{n} | 重复n次 |
{n,} | 重复≥n次 |
{n,m} | 重复≥n且≤m次 |
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
\ | 转义 |
\d | 匹配数字 |
\w | 匹配字母、数字或下划线字符 |
\s | 匹配空白字符:空格、制表符、换页符等 |
\D | 匹配非数字字符 |
\W | 匹配所有与\w不匹配的字符 |
\S | 匹配非空白字符 |
这里只列举了比较常用的元字符,如果想查看更多,戳这里。
小插曲:熟悉Markdown语法的应该知道,制表需要使用到"|",如果要在表内显示这个符号要怎么做呢?转义、|、0x2502这些试过了都不行,最后从别的地方复制了一个中文的"|"才在表中显示出来了。如果有别的方法,可以一起交流讨论下。
补充:
问:[0-9]和\d有什么区别?
答:\d匹配的是Unicode,要筛选各种语言里的数字字符:
012345789٠١٣٤٥٦٧٨۰۱۲۳۴۶۷۸۹०१२३४५६७८९০১২৩৪৫৬৭৮৯੦੧੨੩੪੫੬੭੮੯૦૧૨૩૪૫૬૭૮૯୦୧୨୩୪୫୬୭୮୯௦௧௨௩௪௫௬௭௮௯౦౧౨౩౪౫౬౭౮౯೦೧೨೩೪೫೬೭೮೯൦൧൨൩൪൫൬൭൮൯๐๑๒๓๔๕๖๗๘๙໐໑໒໓໔໕໖໗໘໙༠༡༢༣༤༥༦༧༨༩၀၁၂၃၄၅၆၇၈၉០១២៣៤៥៦៧៨៩᠐᠑᠒᠓᠔᠕᠖᠗᠘᠙
[0-9]匹配的是阿拉伯数字:0123456789
所以[0-9]的效率更高。
例子 :
只是知道了元字符的含义可能还是不能很好地理解正则表达式,通过对照上表和下面例子来加深一下理解:
手机号:
- 11位数字:^[0-9]{11}$,[0-9]表示0到9的数字,{11}表示重复11次
- 11位数字,第一位为1:^1[0-9]{10}$,1表示第一位是1,[0-9]{10}表示0到9的数字重复10次
- 11为数字,第一位为1,第二位为3、4、5、7、8:^1[3|4|5|7|8][0-9]{9}$,1表示第一位是1,[3|4|5|7|8]表示第二位是3、4、5、7或8,[0-9]{9}表示0到9的数字重复9次
常用正则表达式
- 用户名和密码,由6~16位字母、数字、下划线组成且第一位是字母:
^[a-zA-Z]\w{5,15}$ - 电话号码:
^(\d{3,4}-)\d{7,8}$ - 手机号码:
^1[3|4|5|7|8][0-9]{9}$ - 身份证号(15位或18位数字):
^\d{14}[[0-9],0-9xX]$ - Email地址:
^\w+([-+.]\w+)*@\w+([-.]\w+)*.\w+([-.]\w+)$* - URL:
^http://([\w-]+.)+[\w-]+(/[\w-./?%&=])?$* - QQ号(从10000开始):
^[1-9][0-9]{4,}$ - 中国邮政编码:
^[1-9]\d{5}$ - n位的数字:
^\d{n}$ - 至少n位的数字:
^\d{n,}$ - m~n位的数字:
^\d{m,n}$ - 整数或者小数:
^[0-9]+([.][0-9]+){0,1}$ - 有1~3位小数的正实数:
^[0-9]+(.[0-9]{1,3})?$ - 汉字:
^[\u4e00-\u9fa5]{0,}$
正则表达式在iOS中的使用
注意:在写正则表达式时:所有的""都需要转义,即:"\\"
1.NSPredicate(验证字符串):
// 要验证的字符串
NSString *phoneNumber = @"15212345678";
// 编写正则表达式
NSString *regular = @"^1[3|4|5|7|8][0-9]{9}$";
// 创建谓词对象并设定条件的表达式
NSPredicate *numberPre = [NSPredicate predicateWithFormat:@"SELF MATCHES %@", regular];
// 对字符串判断,该方法会返回BOOL值
[numberPre evaluateWithObject:phoneNumber];
2.NSString(查找字符串):
- (NSRange)rangeOfString:(NSString *)aString options:(NSStringCompareOptions)mask;
NSString *string = @"手机号:15212345678";
NSRange range = [string rangeOfString:@"^1[3|4|5|7|8][0-9]{9}$" options:NSRegularExpressionSearch];
if (range.location != NSNotFound) { // 判断是否查找到
// 查找到
} else {
// 未查找到
}
3.NSRegularExpression(查找字符串):
NSString *string = @"手机号:15212345678";
NSError *error;
// 创建NSRegularExpression对象并指定正则表达式
NSRegularExpression *regex = [NSRegularExpression
regularExpressionWithPattern:@"^1[3|4|5|7|8][0-9]{9}$"
options:0
error:&error];
if (!error) { // 如果没有错误
// 获取特定字符串的范围
NSTextCheckingResult *match = [regex firstMatchInString:string options:0 range:NSMakeRange(0, [string length])];
if (match) {
// 截获特定的字符串
NSString *result = [string substringWithRange:match.range];
NSLog(@"%@", result);
}
} else { // 如果有错误,则把错误打印出来
NSLog(@"error - %@", error);
}
结语:
正则表达式的知识远远不止这些,不过以上内容就可以满足日常开发了。以后有时间的话会再深入了解的。
如有错误之处,还请指正。