《算法》-字符串[正则表达式]

正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。

正则表达式描述了一种字符串匹配的模式(pattern),可以用来检查一个字符串是否含有满足该pattern的子串,正则表达式典型应用如下图:
[图片上传失败...(image-12f1b8-1600264756781)]
常见的表示前面的符号重复0或多次,比如AB表示的字符串由一个A和0个或多个B组成。

|表示或操作,如AB|CD,可以表示字符串AB或者CD

()可以改变默认的优先级,举例如下:
[图片上传失败...(image-6b2dbb-1600264756782)]


在这里插入图片描述

每个正则表达式都对应一个非确定有限状态自动机(NFA),根据正则表达式查找字符串首先将其转化成对应的NFA,然后在文本上模拟NFA的运行,看文本是否与该NFA对应的正则表达式匹配

//grep命令简单实现

public class GREP {
public static void main(String[] args) {
String regexp = "(.*" + args[0] + ".*)";

//根据正则表达式构造NFA

NFA nfa = new NFA(regexp);

while (StdIn.hasNextLine()) {
String line = StdIn.readLine();

//在文本line上模拟NFA的运行看是否与对应的正则表达式匹配

if (nfa.recognizes(line)) {
StdOut.println(line);

}

}

}

}

//NFA实现

public class NFA {
private Digraph graph; // digraph of epsilon transitions

private String regexp; // regular expression

private final int m; // number of characters in regular expression

根据正则表达式构造NFA

长度为M的正则表达式中的每个字符在NFA中都对应一个状态,NFA的起始状态为0,并有一个虚拟的接受状态M,如下图
[图片上传失败...(image-3027e5-1600264756782)]
字母表中的字符对应的状态都有一条从它指出的边,如图中黑色的边(A,B,A,C,D水平指出的边)

元字符(,),|,*对应的状态至少有一条指出的边,如图中红色的边

一个状态可以有多条指出的边,但只能有一条黑色的边

约定模式由括号包围,所以NFA第一个状态是(,最后一个状态是)并指向接受状态M

NFA中的状态转换有两种方式,示意图如下:
[图片上传失败...(image-bac4c2-1600264756782)]
1.如果当前状态的字符和文本中当前字符匹配,则可以通过黑色的边转换到下一状态,称为匹配转换.

2.自动机可以通过红色的边转换到下一状态而不扫描文本中的任何字符,这种转换称为E-转换.

用char数组re[]保存正则表达式本身,如果re[i]在字母表中,就存在从i到i+1的匹配转换

用有向图G表示所有的E-转换,如上图的NFA对应的有向图含有下面9条边
[图片上传失败...(image-428791-1600264756782)]
用栈来处理括号,构造规则如下图


在这里插入图片描述

代码如下,结合正则表达式对应的NFA图来看就比较好理解了

public NFA(String regexp) {
this.regexp = regexp;

m = regexp.length();

Stack<Integer> ops = new Stack<Integer>();

graph = new Digraph(m+1);

for (int i = 0; i < m; i++) {
int lp = i;

if (regexp.charAt(i) == '(' || regexp.charAt(i) == '|')

ops.push(i);

else if (regexp.charAt(i) == ')') {
int or = ops.pop();

// 2-way or operator

if (regexp.charAt(or) == '|') {
lp = ops.pop();

graph.addEdge(lp, or+1);

graph.addEdge(or, i);

}

else if (regexp.charAt(or) == '(')

lp = or;

else assert false;

}

// closure operator (uses 1-character lookahead)

if (i < m-1 && regexp.charAt(i+1) == '*') {
graph.addEdge(lp, i+1);

graph.addEdge(i+1, lp);

}

if (regexp.charAt(i) == '(' || regexp.charAt(i) == '*' || regexp.charAt(i) == ')')

graph.addEdge(i, i+1);

}

if (ops.size() != 0)

throw new IllegalArgumentException("Invalid regular expression");

}

在文本txt上模拟NFA的运行看是否与对应的正则表达式匹配,如果到达了接受状态,则称该NFA识别了这段文本

模拟运行流程如下图


在这里插入图片描述
//代码如下

public boolean recognizes(String txt) {
//获取从起始状态0通过E-转换后能够到达的所有状态,存在Bag pc中

//深度优先搜索获取有向图graph中顶点0可达的所有顶点

DirectedDFS dfs = new DirectedDFS(graph, 0);

Bag<Integer> pc = new Bag<Integer>();

for (int v = 0; v < graph.V(); v++)

if (dfs.marked(v)) pc.add(v);

 

// Compute possible NFA states for txt[i+1]

for (int i = 0; i < txt.length(); i++) {
if (txt.charAt(i) == '*' || txt.charAt(i) == '|' || txt.charAt(i) == '(' || txt.charAt(i) == ')')

throw new IllegalArgumentException("text contains the metacharacter '" + txt.charAt(i) + "'");

//

Bag<Integer> match = new Bag<Integer>();

//看Bag pc中是否有与txt[i]匹配的字符,如果有则把匹配后v可达的状态v+1存入Bag match中

for (int v : pc) {
if (v == m) continue;

if ((regexp.charAt(v) == txt.charAt(i)) || regexp.charAt(v) == '.')

match.add(v+1);

}

//再把match中的状态通过E-转换后能够到达的所有状态,存在Bag pc中

dfs = new DirectedDFS(graph, match);

pc = new Bag<Integer>();

for (int v = 0; v < graph.V(); v++)

if (dfs.marked(v)) pc.add(v);

 

// optimization if no states reachable

if (pc.size() == 0) return false;

//用Bag pc继续匹配txt中下一个字符 go for

}

 

// check for accept state

for (int v : pc)

if (v == m) return true;

return false;

}

 

/**

* Unit tests the {@code NFA} data type.

*

* @param args the command-line arguments

*/

public static void main(String[] args) {
String regexp = "(" + args[0] + ")";

String txt = args[1];

NFA nfa = new NFA(regexp);

StdOut.println(nfa.recognizes(txt));

}

 

}
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342