文章导读:
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。
1、正则表达式概述
正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。如果已经在其他语言里使用过正则表达式,只需要简单看一看就可以上手了。

正则表达式也叫做匹配模式(Pattern),它由一组具有特定含义的字符串组成,通常用于匹配和替换文本。
2、注意点:
match :匹配 span :匹配到信息的范围
match 是从头往后开始匹配,search不按照顺序,直接获取自己想要的,有就显示,没有就None
r 代表反转义,前面也提到过这个知识,如果我们在获取东西的过程中,都不需要反转义的东西,往前就加个r就行,如果是有特殊含义的就给反转义,没有特殊含义的也没事
正则表达式:符号+方法
正则表达式的流程是:先匹配再提取(如果匹配不上,就会出现None并报错)
3、以下几章的开发环境python3.5
----------------------------对于新的一门技术,进行慢慢分析开始吧!-------------------------------
1、为什么用到正则表达式?
帮我们匹配内容,获取里面的信息(以前用字符串,但是作用比较局限)
在软件开发过程中,经常会涉及到大量的关键字等各种字符串的操作,使用正则表达式能很大程度的简化开发的复杂度和开发的效率,所以在Python中正则表达式在字符串的查询匹配操作中占据很重要的地位

2、正则表达式的基本特征
两个参数,第一个参数是自己要匹配内容提取的信息(正则表达式),第二个参数是匹配的内容(字符串)
先进行导入正则,分析结果,得到一个match对象,下标范围是(0,3),匹配内容是www
re.match() 能够匹配出以xxx开头的字符串



search:
就直接搜索这个匹配内容

总结一点正则模块里面提供的方法:
import re # 导入re模块
dir(re) # 查看re模块的方法和属性
['A','ASCII', 'DEBUG', 'DOTALL', 'I', 'IGNORECASE', 'L', 'LOCALE', 'M', 'MULTILINE','S', 'Scanner', 'T', 'TEMPLATE', 'U', 'UNICODE', 'VERBOSE', 'X', '_MAXCACHE','__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__','__name__', '__package__', '__spec__', '__version__', '_alphanum_bytes','_alphanum_str', '_cache', '_cache_repl', '_compile', '_compile_repl','_expand', '_locale', '_pattern_type', '_pickle', '_subx', 'compile','copyreg', 'error', 'escape', 'findall', 'finditer', 'fullmatch', 'match','purge', 'search', 'split', 'sre_compile', 'sre_parse', 'sub', 'subn', 'sys','template']