关于PCRE的介绍以及实现正则表达式功能的所有说明,都可以在官方手册中看到:正则表达式(兼容 Perl)
一、认识PCRE
- PCRE 库是一个实现了与 perl 5 在语法和语义上略有差异的正则表达式模式匹配功能的函数集。
- PCRE 是 PHP 核心扩展,所以总是启用的。默认情况下,该扩展使用内置的 PCRE library。
- 自PHP 5.3.0 起, POSIX 正则表达式扩展被废弃。所以没有必要研究 POSIX 正则了。
- PHP 7.0.0 起 PCRE 默认支持 JIT(just-in-time)编译技术,PHP 7.0.12 起可以通过 –without-pcre-jit 禁用 PCRE 的 JIT 功能。PHP 的 Windows 版本已内建对此扩展的支持。不需要载入额外的扩展来使用这些函数。PHP 5.3.0 的之前版本,可通过 –without-pcre-regex 配置选项禁用此扩展。
二、正则语法
1. 详细语法参考
- 详细的正则语法参考:http://php.net/manual/zh/reference.pcre.pattern.syntax.php
- 正则表达式全集:http://tool.oschina.net/uploads/apidocs/jquery/regexp.html
2. 详细语法参考
字符 | 描述 |
---|---|
\ | 转义符。 |
^ | 匹配输入字符串的开始位置。 |
$ | 匹配输入字符串的结束位置。 |
* | 匹配前面的子表达式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等价于{0,}。 |
+ | 匹配前面的子表达式一次或多次。 |
? | 匹配前面的子表达式零次或一次。 |
{n} | 匹配确定的n次。n是一个非负整数。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的两个o。 |
{n,} | 至少匹配n次。 |
{n,m} | 最少匹配n次且最多匹配m次。 |
? | 当该字符紧跟在任何一个其他限制符(*,+,?,{n},{n,},{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串“oooo”,“o+?”将匹配单个“o”,而“o+”将匹配所有“o”。 |
. | 匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符,请使用像“(.|\n)”的模式。 |
(pattern) | 匹配pattern并获取这一匹配。 |
x|y | 匹配x或y。例如,“z|food”能匹配“z”或“food”。“(z|f)ood”则匹配“zood”或“food”。 |
[xyz] | 字符集合。匹配所包含的任意一个字符。例如,“[abc]”可以匹配“plain”中的“a”。 |
[^xyz] | 负值字符集合。匹配未包含的任意字符。例如,“[^abc]”可以匹配“plain”中的“p”。 |
[a-z] | 字符范围。匹配指定范围内的任意字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。 |
[^a-z] | 负值字符范围。匹配任何不在指定范围内的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。 |
\b | 匹配一个单词边界,也就是指单词和空格间的位置。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。 |
\B | 匹配非单词边界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。 |
\d | 匹配一个数字字符。等价于[0-9]。 |
\D | 匹配一个非数字字符。等价于[^0-9]。 |
\f | 匹配一个换页符。等价于\x0c和\cL。 |
\n | 匹配一个换行符。等价于\x0a和\cJ。 |
\r | 匹配一个回车符。等价于\x0d和\cM。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。 |
\S | 匹配任何非空白字符。等价于[^ \f\n\r\t\v]。 |
\w | 匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。 |
\W | 匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。 |
三、PCRE 函数(本文重点)
1. preg_filter() 执行一个正则表达式搜索和替换
- 语法:mixed preg_filter ( mixed
$pattern
, mixed$replacement
, mixed$subject
[, int$limit
= -1 [, int&$count
]] )
说明:preg_filter()等价于preg_replace() 除了它仅仅返回(可能经过转化)与目标匹配的结果。
返回值: 如果subject是一个数组,返回一个数组, 其他情况返回一个字符串。如果没有找到匹配或者发生了错误,当subject是数组 时返回一个空数组,其他情况返回NULL。
官方示例:
<?php
$subject = array('1', 'a', '2', 'b', '3', 'A', 'B', '4');
$pattern = array('/\d/', '/[a-z]/', '/[1a]/');
$replace = array('A:$0', 'B:$0', 'C:$0');
print_r(preg_filter($pattern, $replace, $subject)); //使用filter
print_r(preg_replace($pattern, $replace, $subject)); //使用replace
/*
返回:
Array
(
[0] => A:C:1
[1] => B:C:a
[2] => A:2
[3] => B:b
[4] => A:3
[7] => A:4
)
Array
(
[0] => A:C:1
[1] => B:C:a
[2] => A:2
[3] => B:b
[4] => A:3
[5] => A
[6] => B
[7] => A:4
)
preg_filter()只返回匹配到的;preg_replace() 返回所有
*/
2. preg_grep() 返回匹配模式的数组条目
语法:array preg_grep ( string
$pattern
, array$input
[, int$flags
= 0 ] )说明:返回给定数组input中与模式pattern 匹配的元素组成的数组.
-
参数:
- pattern,要搜索的模式, 字符串形式.
- input,输入数组.
- flags,如果设置为PREG_GREP_INVERT, 这个函数返回输入数组中与给定模式pattern不匹配的元素组成的数组
返回值:返回使用input中key做索引的数组。
-
例子:
<?php $array = array("23.32","22","12.009","23.43.43"); print_r(preg_grep("/^(\d+)?\.\d+$/", $array)); //Array ( [0] => 23.32 [2] => 12.009 ) print_r(preg_grep("/^(\d+)?\.\d+$/", $array, PREG_GREP_INVERT)); //Array ( [1] => 22 [3] => 23.43.43 )
3. preg_last_error() 返回最后一个PCRE正则执行产生的错误代码
语法:int preg_last_error ( void )
-
返回值:返回最后一次PCRE正则执行的错误代码。
- PREG_NO_ERROR 没有匹配错误
- PREG_INTERNAL_ERROR 有PCRE内部错误
- PREG_BACKTRACK_LIMIT_ERROR 调用回溯限制超出
- PREG_RECURSION_LIMIT_ERROR 递归限制超出
- PREG_BAD_UTF8_ERROR 异常的utf-8数据导致
- PREG_BAD_UTF8_OFFSET_ERROR (自 PHP 5.3.0 起) 偏移量与合法的urf-8代码不匹配
- PREG_JIT_STACKLIMIT_ERROR (自 PHP 7.0.0 起) 因 JIT 栈空间限制而失败
具体错误代码的详情在上面预定义常量部分。
官方示例:
<?php
$a = preg_match('/(?:\D+|<\d+>)*[!?]/', 'foobar foobar foobar');
if (preg_last_error() == PREG_BACKTRACK_LIMIT_ERROR) {
print 'Backtrack limit was exhausted!';
}
// 输出:Backtrack limit was exhausted!
4. preg_match() 执行匹配正则表达式
语法:int preg_match ( string
$pattern
, string$subject
[, array &$matches
[, int$flags
= 0 [, int$offset
= 0 ]]] )说明:搜索subject与pattern给定的正则表达式的一个匹配。
-
参数:
- pattern,要搜索的模式,字符串类型。
- subject,输入字符串。
- matches,如果提供了参数matches,它将被填充为搜索结果。
$matches[0]
将包含完整模式匹配到的文本,$matches[1]
将包含第一个捕获子组匹配到的文本,以此类推。 - flags,可以被设置为以下标记值:
PREG_OFFSET_CAPTURE,如果传递了这个标记,对于每一个出现的匹配返回时会附加字符串偏移量(相对于目标字符串的)。 注意:这会改变填充到matches参数的数组,使其每个元素成为一个由 第0个元素是匹配到的字符串,第1个元素是该匹配字符串 在目标字符串subject中的偏移量。 - offset,通常,搜索从目标字符串的开始位置开始。可选参数 offset 用于 指定从目标字符串的某个位置开始搜索(单位是字节)。
返回值:preg_match()返回 pattern 的匹配次数。 它的值将是0次(不匹配)或1次,因为preg_match()在第一次匹配后 将会停止搜索。preg_match_all()不同于此,它会一直搜索subject 直到到达结尾。 如果发生错误preg_match()返回 FALSE。
例子:
<?php
//从URL中获取主机名称
preg_match('@^(?:http://)?([^/]+)@i', "http://www.php.net/index.html", $matches);
print_r($matches);
// 输出 Array ( [0] => http://www.php.net [1] => www.php.net )
//获取主机名称的后面两部分
preg_match('/[^.]+\.[^.]+$/', $matches[1], $matches);
print_r($matches);
// 输出 Array ( [0] => php.net )
5. preg_match_all() 执行一个全局正则表达式匹配
语法:int preg_match_all ( string
$pattern
, string$subject
[, array &$matches
[, int$flags
= PREG_PATTERN_ORDER [, int$offset
= 0 ]]] )说明: 搜索subject中所有匹配pattern给定正则表达式的匹配结果并且将它们以flag指定顺序输出到matches中。在第一个匹配找到后,子序列继续从最后一次匹配位置搜索。
-
参数:
- pattern,要搜索的模式,字符串形式。
- subject,输入字符串。
- matches,多维数组,作为输出参数输出所有匹配结果, 数组排序通过flags指定。
- flags,可以结合下面标记使用(注意不能同时使用PREG_PATTERN_ORDER和PREG_SET_ORDER)
- PREG_PATTERN_ORDER 结果排序为matches[1] 保存第一个子组的所有匹配,以此类推。
- PREG_SET_ORDER 结果排序为matches[1]是包含第二次匹配到的所有匹配(包含子组)的数组,以此类推。
- PREG_OFFSET_CAPTURE 如果这个标记被传递,每个发现的匹配返回时会增加它相对目标字符串的偏移量。 注意这会改变matches中的每一个匹配结果字符串元素,使其 成为一个第0个元素为匹配结果字符串,第1个元素为 匹配结果字符串在subject中的偏移量。
- 如果没有给定排序标记,假定设置为PREG_PATTERN_ORDER。
- offset,通常, 查找时从目标字符串的开始位置开始。可选参数offset用于 从目标字符串中指定位置开始搜索(单位是字节)。
返回值:返回完整匹配次数(可能是0),或者如果发生错误返回FALSE。
例子:
<?php
// \\2是一个后向引用的示例. 这会告诉pcre它必须匹配正则表达式中第二个圆括号(这里是([\w]+))
// 匹配到的结果. 这里使用两个反斜线是因为这里使用了双引号.
$html = "<b>bold text</b><a href=howdy.html>click me</a>";
preg_match_all("/(<([\w]+)[^>]*>)(.*?)(<\/\\2>)/", $html, $matches, PREG_SET_ORDER);
foreach ($matches as $val) {
echo "matched: " . $val[0] . "\n";
echo "part 1: " . $val[1] . "\n";
echo "part 2: " . $val[2] . "\n";
echo "part 3: " . $val[3] . "\n";
echo "part 4: " . $val[4] . "\n\n";
}
/*以上例程会输出:
matched: <b>bold text</b>
part 1: <b>
part 2: b
part 3: bold text
part 4: </b>
matched: <a href=howdy.html>click me</a>
part 1: <a href=howdy.html>
part 2: a
part 3: click me
part 4: </a> */
6. preg_quote() 转义正则表达式字符
语法:string preg_quote ( string
$str
[, string$delimiter
= NULL ] )-
说明: preg_quote()需要参数 str 并向其中每个正则表达式语法中的字符前增加一个反斜线。 这通常用于你有一些运行时字符串需要作为正则表达式进行匹配的时候。
- 正则表达式特殊字符有: . \ + * ? [ ^ ] $ ( ) { } = ! < > | : –
- 注意 / 不是正则表达式特殊字符。
注意:preg_quote() 的应用场景不是用于 preg_replace() 的 $replacement 字符串参数。
-
参数:
- str,输入字符串
- delimiter,如果指定了可选参数 delimiter,它也会被转义。这通常用于 转义PCRE函数使用的分隔符。 / 是最常见的分隔符。
返回值:返回转义后的字符串。
-
例子:
<?php $keywords = '$40 for a g3/400'; $keywords1 = preg_quote($keywords); echo $keywords1; // 返回 \$40 for a g3/400 echo "<br>"; $keywords2 = preg_quote($keywords, '/'); echo $keywords2; // 返回 \$40 for a g3\/400 // $是正则表达式特殊字符, /被当参数传入也转义
7. preg_replace_callback() 执行一个正则表达式搜索并且使用一个回调进行替换
语法:mixed preg_replace_callback ( mixed
$pattern
, callable$callback
, mixed$subject
[, int$limit
= -1 [, int &$count
]] )说明:这个函数的行为除了 可以指定一个 callback 替代 replacement 进行替换 字符串的计算,其他方面等同于 preg_replace()。
-
参数:
- pattern,要搜索的模式,可以使字符串或一个字符串数组。
- callback, 一个回调函数,在每次需要替换时调用,调用时函数得到的参数是从subject 中匹配到的结果。回调函数返回真正参与替换的字符串。这是该回调函数的签名:string handler ( array $matches ) 。你可能经常会需要callback函数而 仅用于preg_replace_callback()一个地方的调用。在这种情况下,你可以 使用匿名函数来定义一个匿名函数作 为preg_replace_callback()调用时的回调。 这样做你可以保留所有 调用信息在同一个位置并且不会因为一个不在任何其他地方使用的回调函数名称而污染函数名称空间。
- subject,要搜索替换的目标字符串或字符串数组。
- limit,对于每个模式用于每个 subject 字符串的最大可替换次数。 默认是-1(无限制)。
- count,如果指定,这个变量将被填充为替换执行的次数。
返回值: 如果subject是一个数组, preg_replace_callback()返回一个数组,其他情况返回字符串。 错误发生时返回 NULL。如果查找到了匹配,返回替换后的目标字符串(或字符串数组), 其他情况subject 将会无变化返回。
官方示例:
<?php
/* 将文本中的年份增加一年 */
$text = "April fools day is 04/01/2002\n";
$text.= "Last christmas was 12/24/2001\n";
// 回调函数
function next_year($matches)
{
// 通常: $matches[0]是完成的匹配
// $matches[1]是第一个捕获子组的匹配
// 以此类推
return $matches[1].($matches[2]+1);
}
$text = preg_replace_callback("|(\d{2}/\d{2}/)(\d{4})|", "next_year", $text);
echo $text;
/*
输出
April fools day is 04/01/2003
Last christmas was 12/24/2002
*/
8. preg_replace_callback_array() 执行一个正则表达式搜索并且使用多个回调进行替换
语法:mixed preg_replace_callback_array ( array
$patterns_and_callbacks
, mixed$subject
[, int$limit
= -1 [, int &$count
]] )说明:除了回调函数是基于每个patterns外,其他方面类似于 preg_replace_callback()。
-
参数:
- patterns_and_callbacks,参数(keys)对应回调函数(values)的数组。
- subject,要搜索替换的目标字符串或字符串数组。
- limit,对于每个模式用于每个 subject 字符串的最大可替换次数。 默认是-1(无限制)。
- count,如果指定,这个变量将被填充为替换执行的次数。
返回值:
preg_replace_callback_array() 如果参数是数组则会返回一个数组,否则为字符串。出错时返回 NULL;如果匹配到,会返回一个新的subject-
官方示例:
<?php $subject = 'Aaaaaa Bbb'; preg_replace_callback_array( [ '~[a]+~i' => function ($match) { echo strlen($match[0]), ' matches for "a" found', PHP_EOL; }, '~[b]+~i' => function ($match) { echo strlen($match[0]), ' matches for "b" found', PHP_EOL; } ], $subject ); /* 输出 6 matches for "a" found 3 matches for "b" found */
9. preg_replace() 执行一个正则表达式的搜索和替换
语法:mixed preg_replace ( mixed
$pattern
, mixed$replacement
, mixed$subject
[, int$limit
= -1 [, int &$count
]] )说明:搜索subject中匹配pattern的部分, 以replacement进行替换。
-
参数:
- pattern,要搜索的模式。可以使一个字符串或字符串数组。 可以使用一些PCRE修饰符。
- replacement,用于替换的字符串或字符串数组。如果这个参数是一个字符串,并且pattern 是一个数组,那么所有的模式都使用这个字符串进行替换。如果pattern和replacement 都是数组,每个pattern使用replacement中对应的 元素进行替换。如果replacement中的元素比pattern中的少, 多出来的pattern使用空字符串进行替换。replacement中可以包含后向引用\n 或$n,语法上首选后者。 每个 这样的引用将被匹配到的第n个捕获子组捕获到的文本替换。
- subject,要进行搜索和替换的字符串或字符串数组。如果subject是一个数组,搜索和替换回在subject 的每一个元素上进行, 并且返回值也会是一个数组。
- limit,每个模式在每个subject上进行替换的最大次数。默认是 -1(无限)。
- count,如果指定,将会被填充为完成的替换次数。
返回值: 如果subject是一个数组, preg_replace()返回一个数组, 其他情况下返回一个字符串。如果匹配被查找到,替换后的subject被返回,其他情况下 返回没有改变的 subject。如果发生错误,返回 NULL 。
-
例子:
<?php $patterns = array ('/(19|20)(\d{2})-(\d{1,2})-(\d{1,2})/', '/^\s*{(\w+)}\s*=/'); $replace = array ('\3/\4/\1\2', '$\1 ='); echo preg_replace($patterns, $replace, '{startDate} = 1999-5-27'); // 输出: $startDate = 5/27/1999
10. preg_split() 通过一个正则表达式分隔字符串
语法:array preg_split ( string
$pattern
, string$subject
[, int$limit
= -1 [, int$flags
= 0 ]] )说明:通过一个正则表达式分隔给定字符串.
-
参数:
- pattern,用于搜索的模式,字符串形式。
- subject,输入字符串
- limit,如果指定,将限制分隔得到的子串最多只有limit个,返回的最后一个 子串将包含所有剩余部分。limit值为-1, 0或null时都代表”不限制”, 作为php的标准,你可以使用null跳过对flags的设置。
- flags,可以是任何下面标记的组合(以位或运算 | 组合):
- PREG_SPLIT_NO_EMPTY,如果这个标记被设置, preg_split() 将进返回分隔后的非空部分。
- PREG_SPLIT_DELIM_CAPTURE,如果这个标记设置了,用于分隔的模式中的括号表达式将被捕获并返回。
- PREG_SPLIT_OFFSET_CAPTURE,如果这个标记被设置, 对于每一个出现的匹配返回时将会附加字符串偏移量. 注意:这将会改变返回数组中的每一个元素, 使其每个元素成为一个由第0 个元素为分隔后的子串,第1个元素为该子串在subject 中的偏移量组成的数组。
返回值:返回一个使用 pattern 边界分隔 subject 后得到 的子串组成的数组, 或者在失败时返回 FALSE。
-
例子:
<?php //使用逗号或空格(包含" ", \r, \t, \n, \f)分隔短语 $keywords = preg_split ("/[\s,]+/", "hypertext language, programming"); print_r($keywords); // 输出 // Array ( [0] => hypertext [1] => language [2] => programming )