正则表达式

正则表达式的用处

在我们对一段未知字符串进行查找验证时,正则表达式的模式匹配为我们节约了大量的时间与资源。

为什么必须会正则表达式

在很多文本的提取中会出现很多无用的信息需要我们从大量的字符串中提取出我们需要的内容,或者从一段字符串中验证应该存在的字符串。这个时候爬虫里面HTML提取中自带的方法就不能办到。

正则表达式的特殊字符

  1. ^ $ * ? + {2} {2,} {2,10}|
  2. [] [^] [a-z]
  3. \s \S \w \W
  4. [\u4E00-\u9FA4] () \d
    这些属于常用的正则表达式的特殊符号。
    例如:
import re
line='julianlee107'
#假如我们只需要提取出前面的字母部分
reg='^[a-zA-Z]+[^0-9]'
re.match(reg,line)

在上一段代码中,在[]外的^代表必须以什么开头,[]里面的代码代表着非。
正则表达式中有各种写法,有的效率高有的效率低,需要多加思考和实验。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容