爬虫笔记(八) - 正则表达式

二话不说,我们直接进入正题,首先分享两个比较好的网站:
图形化显示Regulex:点击跳转
正则表达式的在线测试:点击跳转

常用的正则表达语言

常用符号 用法
^ 匹配输入字符串的开始位置
$ 匹配输入字符串的结尾位置
* 匹配前面的子表达式零次或多次
? 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符
+ 匹配前面的子表达式一次或多次
{n} n是一个非负整数。匹配确定的n次
{n,} n是一个非负整数。至少匹配n次
{n,m} 最少匹配n次且最多匹配m次
| 指明两项之间的一个选择。要匹配|,请使用|
[] 方括号把一列字符或一个范围括在了一起 (或两者)
[^] 匹配不在类中的任何一个字符
[a-z] 字母a-z
. 任意字符
\s 匹配任意单个空白字符 , 主要是空格
\S 匹配任何非空白字符
\w 匹配任何单个字符,与[A-Za-z0-9_]功能一样
\W 用于匹配所有与\w不匹配的字符
[\u4E00-\u9FA5] 匹配所有中文
() 1.确定求值的顺序</br>2.捕获子模式
\d 匹配任意一个数字 (相当于类 [0-9])

在使用过程中主要注意下面几个要点

  • 非贪婪模式:默认情况下都是贪婪模式,使用?转换成非贪婪模式
  • 部分内容需要转移:[] 内的特殊字符(如*)需要转移

常用例子

例子一
例子二
例子三

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容