今天刚拿出代码之美好好观赏一下,第一篇就让我眼前一亮,竟然是介绍关于正则表达式的,之前自己也自学过一段这个,但是那时候可能是自己还没有到这个水平吧,看了挺久的,越看越晕 ,感觉是正则表达式真的不是人用的啊!!!于是就没有然后了~
今天看到几十年前的一位计算机大师Rob Pike因为想让正则表达式的使用更加方便一点,而不是需要各种巨大的package,就自己当场手撸了30行左右的C代码,就解决了95%正则表达式的内容。但是就觉得相见恨晚啊,必须的好好学习一下。下面是代码。
/* match: search for regexp anywhere in text */
int match(char *regexp, char *text)
{
if (regexp[0] == '^')
return matchhere(regexp+1, text);
do { /* must look even if string is empty */
if (matchhere(regexp, text))
return 1;
} while (*text++ != '\0');
return 0;
}
/* matchhere: search for regexp at beginning of text */
int matchhere(char *regexp, char *text)
{
if (regexp[0] == '\0')
return 1;
if (regexp[1] == '*')
return matchstar(regexp[0], regexp+2, text);
if (regexp[0] == '$' && regexp[1] == '\0')
return *text == '\0';
if (*text!='\0' && (regexp[0]=='.' || regexp[0]==*text))
return matchhere(regexp+1, text+1);
return 0;
}
/* matchstar: search for c*regexp at beginning of text */
int matchstar(int c, char *regexp, char *text)
{
do { /* a * matches zero or more instances */
if (matchhere(regexp, text))
return 1;
} while (*text != '\0' && (*text++ == c || c == '.'));
return 0;
}
这是基本的搜索规则:
Character | Meaning |
---|---|
c | Matches any literal character c . |
. (period) | Matches any single character. |
^ | Matches the beginning of the input string. |
$ | Matches the end of the input string. |
* | Matches zero or more occurrences of the previous character. |
只能说是致敬大师了,一个程序充分体现了C语言指针的力量和递归的魅力~