3.3.2 各种引用的记法

根据前面的介绍,对分组的引用可能出现在三种场合:

  • 在匹配完之后,用group(num)之类的方法提取数据
  • 在进行正则表达式替换时,用\num引用
  • 在正则表达式内部,用\num引用

但是使用\num,有可能遇到二义性的问题:如果出现了\10,它表示第10个捕获分组的引用?还是第一个捕获分组\1后跟着一个字符0

例3-28 可能具有二义性的反向引用

re.sub(r'(\d)', r'\10', '123')
# sre_constants.error: invalid group reference

原来\10会被解释成“第10个捕获分组匹配的文本”,而不是“第一个捕获分组匹配的文本之后加上字符0”。如果我们希望做到后面这种情况,python提供了\g<num>表示法,将\10改写成\g<1>0,避免了二义性的问题。

例3-29 使用\g<num>消除二义性

re.sub(r'(\d)', r'\g<1>m', '123')  # 1m2m3m

PHP中也有专门的记法解决这类问题,在替换时可以使用\${num}的写法,准确标注所引用分组的编号,也就是说\${1}0表示“第一个捕获分组之后加上0”,${10}表示“第10个捕获分组”。而$10,在第10和捕获分组存在的情况下,表示该分组;否则视为空字符串。

Python和PHP中的规定明确,所以避免了\num的二义性;其他语言却不是如此,根据它们的文档,引用捕获分组只有\num(或$num)一种记法,这时\10的二义性就无法避免了。

比如Java对\num中对num是这样定义的:**如果是一位数,则引用对应的捕获分组;如果是两位数且存在对应的捕获分组时,引用对应的捕获分组,否则引用一位数编号的捕获分组。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 个人根据《正则指引》内容总结记录,侵删!! 转载至我的博客 最近看了编译原理方面的书,觉得正则表达式非常重要,在各...
    J退後阅读 637评论 0 0
  • 正则表达式有很多流派,也有很多的特性,不同的语言支持度也是不一样的。本篇文章是写Python中的正则表达式的用法的...
    Moscow1147阅读 1,145评论 0 0
  • 姓名:顾林林 公司:上海陈工电控科技有限公司 【411期】反省一组 学员 日精进打卡第162天 【447期】乐观一...
    紫魇阅读 158评论 0 0
  • 01这是小北第一次相亲,走到咖啡厅门口她突然放松了下来。还有半个小时,她打算找个靠窗的位置看会书。推开门,她经常坐...
    晴风Joy阅读 798评论 10 18
  • 今天全世界都是老薛复合的消息。第一眼看到消息,还以为是假的,就赶紧去翻看微博,竟然是真的。眼泪抑制不住的往外涌,我...
    MerryChang阅读 212评论 0 0