C++11 正则表达式简介及简单使用

本文根据众多互联网博客内容整理后形成,引用内容的版权归原始作者所有,仅限于学习研究使用,不得用于任何商业用途。

正则表达式(regular expression)是计算机科学中的一个概念,又称规则表达式,通常简写为regex,regexp,RE,regexps,regexes,regexen。接下来通过本文给大家介绍正则表达式简介及在C++11中的简单使用教程.

正则表达式Regex(regular expression)是一种强大的描述字符序列的工具。在许多语言中都存在着正则表达式,C++11中也将正则表达式纳入了新标准的一部分,不仅如此,它还支持了6种不同的正则表达式的语法,分别是:ECMASCRIPT,basic,extended,awk,grep和egrep。其中ECMASCRIPT是默认的语法,具体使用哪种语法我们可以在构造正则表达式的时候指定。

正则表达式是一种文本模式。正则表达式是强大,便捷,高效的文本处理工具。正则表达式本身,加上如同一门袖珍编程语言的通用模式表示法(general pattern notation),赋予使用者描述和分析文本的能力。配合上特定工具提供的额外支持,正则表达式能够添加,删除,分离,叠加,插入和修整各种类型的文本和数据。

完整的正则表达式由两种字符构成:特殊字符(special characters)称为"元字符"(meta characters),其它为"文字"(literal),或者是普通文本字符(normal text characters,如字母,数字,汉字,下划线)。正则表达式的元字符提供了更强大的描述能力。

和文本编辑器一样,绝大多数高级编程语言均支持正则表达式,如Perl,Java,Python,C/C++,这些语言都有各自的正则表达式包。

一个正则表达式仅仅为一个字符串,它没有长度限制。"子表达式"指的是整个正则表达式中的一部分,通常是括号内的表达式,或者是由"|"分割的多选分支。

默认情况下,表达式中的字母是要区分大小写的。

常用的元字符:

元字符 功能说明
"." 匹配除"\n"之外的任何单个字符,若要匹配包括"\n"在内的任意字符,需使用诸如"[\s\S]"之类的模式
"^" 匹配输入字符串的开始位置,不匹配任何字符,要匹配"^"字符本身,需使用"\^"
"$" 匹配输入字符串结尾的位置,不匹配任何字符,要匹配"$"字符本身,需使用"\$"
"*" 零次或多次匹配前面的字符或子表达式,""等效于"{0,}",如"^b"可以匹配"b","b","^b",…
"+" 一次或多次匹配前面的字符或子表达式,等效于"{1,}",如"a+b"可以匹配"ab","aab","aaab",…
"?" 零次或一次匹配前面的字符或子表达式,等效于"{0,1}",如"a[cd]?"可以匹配"a","ac","ad" 当此字符紧随任何其他限定符"*","+","?","{n}","{n,}","{n,m}"之后时,匹配模式是"非贪心的"。"非贪心的"模式匹配搜索到的,尽可能短的字符串,而默认的"贪心的"模式匹配搜索到的,尽可能长的字符串。如,在字符串"oooo"中,"o+?"只匹配单个"o",而"o+"匹配所有"o"
"|" 将两个匹配条件进行逻辑"或"(Or)运算,如正则表达式"(him|her)"匹配"it belongs to him"和"it belongs to her",但是不能匹配"itbelongs to them."
"" 将下一字符标记为特殊字符,文本,反向引用或八进制转义符,如,"n"匹配字符"n","\n"匹配换行符,序列"\"匹配"","("匹配"("
"\w" 匹配字母或数字或下划线,任意一个字母或数字或下划线,即AZ,az,0~9,_中任意一个
"\W" 匹配任意不是字母,数字,下划线的字符
"\s" 匹配任意的空白符,包括空格,制表符,换页符等空白字符的其中任意一个,与"[ \f\n\r\t\v]"等效
"\S" 匹配任意不是空白符的字符,与"[^\f\n\r\t\v]"等效
"\d" 匹配数字,任意一个数字,0~9中的任意一个,等效于"[0-9]"
"\D" 匹配任意非数字的字符,等效于"[^0-9]"
"\b" 匹配一个字边界,即字与空格间的位置,也就是单词和空格之间的位置,不匹配任何字符,如,"er\b"匹配"never"中的"er",但不匹配"verb"中的"er";
"\B" 非字边界匹配,"er\B"匹配"verb"中的"er",但不匹配"never"中的"er"
"\f" 匹配一个换页符,等价于"\x0c"和"\cL"
"\n" 匹配一个换行符,等价于"\x0a"和"\cJ"
"\r" 匹配一个回车符,等价于"\x0d"和"\cM"
"\t" 匹配一个制表符,等价于"\x09"和"\cI"
"\v" 匹配一个垂直制表符,等价于"\x0b"和"\cK"
"\cx" 匹配"x"指示的控制字符,如,\cM匹配Control-M或回车符,"x"的值必须在"A-Z"或"a-z"之间,如果不是这样,则假定c就是"c"字符本身
"{n}" "n"是非负整数,正好匹配n次,如,"o{2}"与"Bob"中的"o"不匹配,但与"food"中的两个"o"匹配
"{n,}" "n"是非负整数,至少匹配n次,如,"o{2,}"不匹配"Bob"中的"o",而匹配"foooood"中的所有"o","o{1,}"等效于"o+","o{0,}"等效于"o*"
"{n,m}" "n"和"m"是非负整数,其中n<=m,匹配至少n次,至多m次,如,"o{1,3}"匹配"fooooood"中的头三个o,'o{0,1}'等效于'o?',注意,不能将空格插入逗号和数字之间 如"ba{1,3}"可以匹配"ba"或"baa"或"baaa"
"x|y" 匹配"x"或"y",如,"z|food"匹配"z"或"food" "(z|f)ood"匹配"zood"或"food"
"[xyz]" 字符集,匹配包含的任一字符,如,"[abc]"匹配"plain"中的"a";
"[^xyz]" 反向字符集,匹配未包含的任何字符,匹配除了"xyz"以外的任意字符,如,"[^abc]"匹配"plain"中的"p"
"[a-z]" 字符范围,匹配指定范围内的任何字符,如,"[a-z]"匹配"a"到"z"范围内的任何小写字母
"[^a-z]" 反向范围字符,匹配不在指定的范围内的任何字符,如,"[^a-z]"匹配任何不在"a"到"z"范围内的任何字符
"( )" 将"("和")"之间的表达式定义为"组"group,并且将匹配这个表达式的字符保存到一个临时区域,一个正则表达式中最多可以保存9个,它们可以用"\1"到"\9"的符号来引用
"(pattern)" 匹配pattern并捕获该匹配的子表达式,可以使用$0…$9属性从结果"匹配"集合中检索捕获的匹配
"(?:pattern)" 匹配pattern但不捕获该匹配的子表达式,即它是一个非捕获匹配,不存储供以后使用的匹配, 这对于用"or"字符" (|)"组合模式部件的情况很有用, 如,"industr(?:y|ies)"是比"industry|industries"更简略的表达式
"(?=pattern)" 非获取匹配,正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。如,"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows",但不能匹配"Windows3.1"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始
"(?!pattern)" 非获取匹配,正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows"

要匹配某些特殊字符,需在此特殊字符前面加上"",如要匹配字符"^","","()","[]","{}",".","?","+","*","|",需使用" \^"," \"," \ (",")"," \ [","]"," {","}"," ."," ?"," +"," *"," |"。

在C++/C++11中,GCC版本是4.9.0及以上,VS版本为VS2013及以上时,会有regex头文件,此头文件中会有regex_match,regex_search,regex_replace等函数可供调用,以下是测试代码:

#include "regex.hpp"

#include <regex>

#include <string>

#include <vector>

#include <iostream>

int test_regex_match()

{

 std::string pattern{ "\\d{3}-\\d{8}|\\d{4}-\\d{7}" }; // fixed telephone

 std::regex re(pattern);

 std::vector<std::string> str{ "010-12345678", "0319-9876543", "021-123456789"};

 /* std::regex_match:

  判断一个正则表达式(参数re)是否匹配整个字符序列str,它主要用于验证文本

  注意,这个正则表达式必须匹配被分析串的全部,否则返回false;如果整个序列被成功匹配,返回true

 */

 for (auto tmp : str) {

  bool ret = std::regex_match(tmp, re);

  if (ret) fprintf(stderr, "%s, can match\n", tmp.c_str());

  else fprintf(stderr, "%s, can not match\n", tmp.c_str());

 }

 return 0;

}

int test_regex_search()

{

 std::string pattern{ "http|[hppts://](https://www.jb51.net/article/104447.htmhppts://)\\w*$" }; // url

 std::regex re(pattern);

 std::vector<std::string> str{ "[http://blog.csdn.net/fengbingchun](http://blog.csdn.net/fengbingchun)", "[https://github.com/fengbingchun](https://github.com/fengbingchun)",

  "[abcd://124.456](https://www.jb51.net/article/104447.htmabcd://124.456)", "abcd [https://github.com/fengbingchun](https://github.com/fengbingchun) 123" };

 /* std::regex_search:

  类似于regex_match,但它不要求整个字符序列完全匹配

  可以用regex_search来查找输入中的一个子序列,该子序列匹配正则表达式re

 */

 for (auto tmp : str) {

  bool ret = std::regex_search(tmp, re);

  if (ret) fprintf(stderr, "%s, can search\n", tmp.c_str());

  else fprintf(stderr, "%s, can not search\n", tmp.c_str());

 }

 return 0;

}

int test_regex_search2()

{

 std::string pattern{ "[a-zA-z]+://[^\\s]*" }; // url

 std::regex re(pattern);

 std::string str{ "my csdn blog addr is: [http://blog.csdn.net/fengbingchun](http://blog.csdn.net/fengbingchun) , my github addr is: [https://github.com/fengbingchun](https://github.com/fengbingchun) " };

 std::smatch results;

 while (std::regex_search(str, results, re)) {

  for (auto x : results)

   std::cout << x << " ";

  std::cout << std::endl;

  str = results.suffix().str();

 }

 return 0;

}

int test_regex_replace()

{

 std::string pattern{ "\\d{18}|\\d{17}X" }; // id card

 std::regex re(pattern);

 std::vector<std::string> str{ "123456789012345678", "abcd123456789012345678efgh",

  "abcdefbg", "12345678901234567X" };

 std::string fmt{ "********" };

 /* std::regex_replace:

  在整个字符序列中查找正则表达式re的所有匹配

  这个算法每次成功匹配后,就根据参数fmt对匹配字符串进行替换

 */

 for (auto tmp : str) {

  std::string ret = std::regex_replace(tmp, re, fmt);

  fprintf(stderr, "src: %s, dst: %s\n", tmp.c_str(), ret.c_str());

 }

 return 0;

}

int test_regex_replace2()

{

 // reference: [http://www.cplusplus.com/reference/regex/regex_replace/](http://www.cplusplus.com/reference/regex/regex_replace/)

 std::string s("there is a subsequence in the string\n");

 std::regex e("\\b(sub)([^ ]*)"); // matches words beginning by "sub"

 // using string/c-string (3) version:

 std::cout << std::regex_replace(s, e, "sub-$2");

 // using range/c-string (6) version:

 std::string result;

 std::regex_replace(std::back_inserter(result), s.begin(), s.end(), e, "$2");

 std::cout << result;

 // with flags:

 std::cout << std::regex_replace(s, e, "$1 and $2", std::regex_constants::format_no_copy);

 std::cout << std::endl;

 return 0;

}

GitHub:https://github.com/fengbingchun/Messy_Test

参考资料
正则表达式简介及在C++11中的简单使用

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,923评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,154评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,775评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,960评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,976评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,972评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,893评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,709评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,159评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,400评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,552评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,265评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,876评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,528评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,701评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,552评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,451评论 2 352

推荐阅读更多精彩内容

  • \ :将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,"n"匹配字符"n"。"\n"匹配换行符。序列...
    小沙鹰168阅读 541评论 0 1
  • re模块手册 本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以...
    喜欢吃栗子阅读 4,002评论 0 13
  • 忘了从哪收集的资料了,放这儿,以备不时之需。 只能输入数字:"^[0-9]*$"。 只能输入n位的数字:"^\d{...
    study_monkey阅读 1,401评论 0 7
  • iOS -正则表达式的简单使用 ✨建议收藏,用到时候一查就明白了 下面两个方法我用的也不是很熟练,如果有懂得朋友欢...
    xx_cc阅读 8,562评论 17 177
  • 最近手上要求匹配日语各种片假名平假名的半角全角,第一次弄这个,各种尴尬,在网上查阅了很多资料,不忙了总结一下,还望...
    小小小小小小米阅读 887评论 0 1