问题背景
最近帮同事解决了一个正则问题,挺有意思,分享给大家
背景是同事在做一个用户注册相关的功能,甲方提出了一些对密码复杂度的要求,要求长度8-32位,小写字母,大写字母,数字,符号四种必须都有,下面是匹配密码的最初的正则表达式
(?=.*[0-9])(?=.*[A-Z])(?=.*[a-z])(?=.*[^a-zA-Z0-9]).{8,32}
问题验证
大家可以看一下这个正则,感觉一下用这个正则能够满足上面的密码校验要求吗?可以花一点时间想一想
答案是:不能
我们来做个简单的测试,建议找一个在线工具,实际测试一下
把表达式输入进去,我们测如下几段文本
- abc123A:没有匹配,长度不够
- abcd12345:没有匹配,复杂度不够,没有大写和符号
- abcdA123-:能够正常匹配,长度符合,复杂度符合
那这不是说明这个正则是OK的吗?我们再测下面这个文本
- abcdA123-我:这怎么也匹配了
- abc他dA★123:这怎么也匹配了
问题改进
这个正则里面有两个小问题
- 符号限定过于宽泛:(?=.*[^a-zA-Z0-9])这个判非就把其他所有字符都囊括进来了
- 没有输入文本的限定:.{8,32}这个点也囊括了除换行以外的所有字符
针对上面两个问题改进一下这个正则,首先要枚举我们允许出现的符号,假设我们只允许出现 “-_” 这两个字符
改进后的正则如下
^(?=.*[0-9])(?=.*[A-Z])(?=.*[a-z])(?=.*[-_])[0-9a-zA-Z-_]{8,32}$
这个问题一方面是缺乏测试验证,但更深层的原因其实是对正则不够了解,不能快速发现正则的问题,下一节我们就来看看这个正则里面比较困难的部分
扩展阅读
可能有同学有疑问前面这么一大堆括号是干什么的
这里复习一下正则表达式的一个基础概念:零宽断言
零宽断言是一种零宽度的匹配,它匹配到的内容不会保存到匹配结果中去,最终匹配结果只是一个位置而已。
(?=)就是一种零宽断言,叫做正向先行断言,主要作用是匹配表达式后面的内容
比如:\d(?=px),这个正则能匹配到1px中的1,不会匹配到2pm中的2,因为2后面跟的不是px,如果想同时把px也匹配上,那就得写\d(?=px)px,这看起来就跟\dpx一样了,在匹配单个条件的时候的确没有区别,但匹配多条件的时候就不一样了
我们还是用例子来解释一下
[a-z0-9]{4,10}
这样一个正则能表示英文小写和数字出现4-10次,但不能要求必须同时有英文和数字,可以是纯英文,也可以是纯数字
正则是一种顺序性的描述性语言,1a和a1是不同的,如果想描述这种不确定位置的组合,对于普通正则写法来说是比较困难的,基本就变成了排列组合了
这时我们就可以通过正向先行断言来帮助进行匹配,正向先行断言可以理解成对字符串的模式匹配
(?=.*[a-z])
表示后面必须出现一个英文小写,但是位置可以不定,使用.*来表达位置不定这个信息
同理
(?=.*[0-9])
表示后面必须出现一个数字,但是位置可以不定
[a-z0-9]{4,10}限定输入内容和长度
(?=.*[a-z])(?=.*[0-9])[a-z0-9]{4,10}
连接在一起就能表示英文小写和数字出现4-10次,且英文和数字都必须至少出现一次