常用正则表达式

正则表达式这个东西,看过很多很多,用过的呢,几乎没有用过,就像现在的工作一般,只有真正去做以前没有做过的,去深入了解以前不了解的,才会发现其实这些都很简单;
正则这个东西,几乎在任何地方都可以用,shell里面、SQL语句里面、xx脚本里面
最近在做一些脚本语句识别的东西,其实关键的地方都是在用正则在做匹配的
以python为例:

import re
pattern = re"^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$"
match_result = re.findall(pattern, String)

String为想要去用正则匹配的字符串,match_result会得到匹配的结果,匹配的结果会是一个tuple,里面的元素分别为根据表达式依次匹配到的()内的匹配条件,但是只有整个字符串符合整个正则表达式的匹配后,才会获取到匹配结果
已上面的表达式为例,可以从左到右拆分为几个部分:

  • "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$": ^表示从字符串起始位置开始匹配
  • "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$": ()表示正则表达式捕获的结果会放入一个分组中,https?代表将会匹配http或者https,//表示匹配https后面紧跟的//字符,因为/在正则里面有特殊含义,所以这里需要使用/来对/进行转义,让/代表/本身,括号后面的?代表匹配这个表达式零次或者多次,因为有的url不会带上协议名称
  • "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$" :第二个括号里面的[\da-z.-]+, \d代表匹配所有数字,也可以用0-9来表示所有数字a-z代表所有小写字母,.代表url里面的.,因为.在正则里面也是有特殊含义,所以也需要用\来进行转义,-代表url中可能出现的短横杠,然后用[]+把他们括起来表示可以匹配这些字符多次,然后再[]+后面紧跟着一个.,就表示实际上这一段匹配的是类似 xxx.xxx. 的一段url,但是捕获的结果是xxx.xxx,因为最后一个.不在括号里面
  • "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$" :之前已经匹配了类似https://xxx.xxx.的字符串,那么就剩最后面的域名了域名应该是com. cn. org. 这种类型的,会有固定的长度,所以这里用了一个长度限定{2,6}限定长度为2到6位
  • "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$" :最后的一段([/\w .-])/?$就是匹配可能在.com域名后面的目录名,\w代表所有字母,$代表匹配字符结尾,与最前面的^相呼应,匹配整个输入的字符串
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 匹配中文:[\u4e00-\u9fa5] 英文字母:[a-zA-Z] 数字:[0-9] 匹配空格:[ ]匹配连续空...
    joker_fu阅读 9,671评论 0 0
  • 写在开头 在编码过程中,正则表达式一直是经常会出现但又困扰我们的知识点,笔者就是每次遇到正则表达式就相当头痛,往往...
    机智的马里奥阅读 5,430评论 5 46
  • 为什么要做这件事 做事情总得有些理由才能持久的执行下去,因为最近学习html5语言,常规使用的很多信息需要表单来进...
    TsingQue阅读 6,457评论 0 8
  • 常用正则表达式 “^\d+$” //非负整数(正整数 + 0) “^[0-9]*[1-9][0-9]*$” //正...
    485b1aca799e阅读 3,122评论 0 1
  • 常用正则表达式大全!(例如:匹配中文、匹配html)目录导航一、常见正则表达式二、正则表达式应用一、常见正则表达式...
    我不叫奇奇阅读 1,599评论 0 2