为什么一定要掌握
作为正则表达式,优势有:
- 简洁
- 力量强大
- 文本处理军刀
同样,劣势明显:
- 难读
- 难写
- 难维护
- 只在小范围用
那为什么还要它?原因是:
- 你绕不过,代码里会遇到它,你需要攻破这一知识点
- 它总是在撩你
- 掌握它,收益巨大
它是什么
- 文本利器,其他领域没有用
- 能让你的效率提升的神器
- 标准混乱,哦不,没有标准,总体以「Perl风格」为标准
工欲善其事,必先利其器也
赤手空拳上战场的士兵是不可理喻的
书籍:
-
<<精通正则表达式>>
, 只此一本,从此能上天!(BTW,后面语言相关部分可以只看自己喜爱的语言那里,其他可跳过)拒绝网上的那些不严谨,废话多的,转述文档的,或者纯粹总结某某书籍的,没用的垃圾教程
什么也比不上自己看经典书籍靠谱!
匹配工具,必须能
即时高亮搜索
即时高亮匹配
- 支持多种语言
- 主流正则标准支持完备
所以,你需要:
- 拒绝所谓网页版; 拒绝不能
即时的,高亮的
(不是针对谁,只是在座的各位都是...
) -
Sublime
,它的搜索框勉强满足上面要求,推荐 -
RegexBuddy
(Windows版),神器! 有它,足矣!
我认为「称得上重要的」正则语法
心法也
[数量词/范围]
-
*
: 任意数量任意字符 -
+
: 严格地任意数量任意字符(其实是大于等于1个,但是这样好记忆) -
?
: 0或1个任意字符 -
.
: 一个任意字符(按理来说不归为此类,但是我觉得应该这样) -
{start,end}
:A{1,} A{1,10} A{,10}
[逻辑]
-
|
: 或,只用于元组内 -
^
: 非,只用于字符集内
[类似集合的东东]
-
[]
: 字符集.几点注意
:-
^
的位置,^a-b
与a^b
能理解吗 -
-
的位置,a-z
与-az
意思完全不同
-
-
()
: 元组,(A|B|C|D)
能理解吗
[杀器功能]
-
环视,或者说
锚点
,本身不匹配任何字符,只标记一个地方
-
约定的
:^
$
-
正向肯定
:(?=...)
- 正向否定: (?<=...)
-
逆向肯定
:(?!...)
- 逆向否定: (?<!...)
- 以上,只要两个就够了!因为:
否定就是肯定,否定用^符号辅助不就行了?
又丢掉一点点心智负担
-
-
元组命名
,好用且有用,各家编程语言不同,有的还不支持,下面以Python为例-
(?P<name>...)
: 唔...,还挺漂亮的
-
-
后向引用
, 就是用前面已经匹配的内容,这时正好用到上面元组命名
功能,总得知道前面已经匹配的一坨东西是啥吧,以Python为例- (?=...)
[所谓约定俗成的,看起来重要的字符集]
- 无非是
\w
,\d
这些啦,有了上面的语法,这些东西自己要能在脑海里组装起来,这样记忆起来负担小 - 几个重要的
-
\w
:[a-zA-Z_]
-
\b
:((?<!\w)(?=\w)|(?!\w)(?=\w))
-
[其他]
都是各家语言提供的方言功能了吧,可能,不学也罢
练习!练习!练习!
- 与之相关的工具:
grep
,awk
等,各语言的正则库
,其中语言正则库最重要,必须通读其文档,才能心中有正气
- 平时有事没事粘贴东西到Sublime中,
搜索/替换
(不管是实际需求,还是自己捏造的) - 常用的正则,至少看懂.如
匹配url,email等