9、正则表达式与JSON

正则表达式：一个特殊的字符序列，可以帮助检测一个字符串是否与我们所设定的字符序列相匹配。

功能：可以实现快速检索文本、替换文本的操作。

检测一串数字是否是电话号码
检测一个字符串是否符合e-mail格式
把一个文本里指定的单词替换为另外一个单词

#不使用正则表达式的操作
a = 'C|C++|Java|Python'
#index()函数，如果 'a' 中含有 'Python' 就会返回 'Python' 首个字符的位置，否则报错。
print(a.index('Python'))
结果：11
#同样可以使用 in 函数 
print('Python' in a)
结果：True

#用正则表达式处理：
import re  #正则表达式操作函数集

a = 'C|C++|Java|Python'
#findall()：第一个参数为要查询的字符串，第二个参数为被查询的字符串。
#函数返回查询到的全部的字符串所构成的列表
r = re.findall('Python',a) 
if len(r) > 0:
    print(r)
else:
    print('No')

结果: ['Python']

元字符与普通字符

#提取字符串中所有的数字：
import re

a = 'C2C++4Java7Python6'
r = re.findall('\d',a)
print(r)

结果：['2', '4', '7', '6']

\d：表示所有数字
‘Python’普通字符，'\d'元字符。

正则表达式就是由一系列普通字符和元字符组成的。

#提取字符串中所有的非数字:
import re

a = 'C2C++4Java7Python6'
r = re.findall('\D',a)    #\D为非数字
print(r)

结果：['C', 'C', '+', '+', 'J', 'a', 'v', 'a', 'P', 'y', 't', 'h', 'o', 'n']

字符集

#判断中间是一个字符c或f的单词：
import re

s = 'abc,acc,adc,aec,afc,ahc'
#[]：字符集，或关系
r = re.findall('a[cf]c',s) 
print(r)

结果：['acc', 'afc']
[]：字符集，或关系。[cf]，c或f

普通字符用于定界，确定某一个小段

#判断中间是一个不是c或f的字符的单词：
import re

s = 'abc,acc,adc,aec,afc,ahc'
r = re.findall('a[^cf]c',s) 
print(r)

结果：['abc', 'adc', 'aec', 'ahc']
^：取反操作

#利用字符顺序省略字符，匹配c,d,e,f：
import re

s = 'abc,acc,adc,aec,afc,ahc'
r = re.findall('a[c-f]c',s)
print(r)

结果：['acc', 'adc', 'aec', 'afc']
-：省略中间字符

概括字符集

\d可以用[0-9]表示：
import re

a = 'python1111java678php'
r = re.findall('[0-9]',a)
print(r)

结果：['1', '1', '1', '1', '6', '7', '8']

\w匹配单词字符，也就是[A-Za-z0-9_]
import re

a = 'python1111&_java678  \nph\rp'
r = re.findall('\w',a)  #等价于r = re.findall('[A-Za-z0-9_]',a)
print(r)

结果：['p', 'y', 't', 'h', 'o', 'n', '1', '1', '1', '1', '_', 'j', 'a', 'v', 'a', '6', '7', '8', 'p', 'h', 'p']

\W 只匹配非单词字符，如空格、&、\n、\r等都为非单词字符。

\s 代表空白字符：空格、\n、\r等。

\S 匹配所有非空白字符

import re

a = 'python1111&_java678 \nph\rp'
r = re.findall('\s',a)
print(r)

结果：[' ', '\n', '\r']

常用的概括字符集：\d \D \w \W \s \S
'.' 匹配除换行符\n之外的其他所有字符

数量词

匹配三个字母的单词：
import re

a = 'python1111 java678php'
r = re.findall('[a-z]{3}',a)

print(r)
结果：['pyt', 'hon', 'jav', 'php']

匹配完整的单词：
import re

a = 'python1111 java678php'
r = re.findall('[a-z]{3,6}',a)  #3,4,5,6个为一组
print(r)

结果：['python', 'java', 'php']

利用数量词 {} 多次重复
r = re.findall('[a-z]{3}',a) 也可以写成 r = re.findall('[a-z][a-z][a-z]',a)

贪婪与非贪婪

数量词有贪婪和非贪婪之分，一般来说Python倾向于贪婪的匹配方式。
python会尽可能匹配到最大的字符串。

{number} ？变成非贪婪模式,此时python会匹配最小的字符串
import re

a = 'python1111 java678php'
r = re.findall('[a-z]{3,6}?',a)
print(r)

结果：['pyt', 'hon', 'jav', 'php']

匹配次数

用*匹配*之前字符0次或者无限多次:
import re

a = 'pytho0python1pythonn2'
r = re.findall('python*',a)
print(r)
结果：['pytho', 'python', 'pythonn']

用+匹配一次或者无限多次：
import re

a = 'pytho0python1pythonn2'
r = re.findall('python+',a)
print(r)
结果：['python', 'pythonn']

用？匹配0次或者一次：
import re

a = 'pytho0python1pythonn2'
r = re.findall('python?',a)
print(r)

结果：['pytho', 'python', 'python']
可以用?来进行去重复的操作。

注意：{3，6}？和 python? 的问号用法不一样。

边界匹配符

QQ号的位数是否符合4-8位：
import re

qq = '10000004531'
r = re.findall('^\d{4,8}$',qq)
print(r)

结果：[]
^, $ 组成边界匹配符
^：从字符串开头开始匹配
$：从字符串末尾开始匹配

000$：匹配最后三位是000，^000：匹配开始三位是000

组

python字符串是否重复出现三次：
import re

a = 'pythonpythonpythonpythonpython'
r = re.findall('(python){3}',a)
print(r)

结果:['python']
() 对应一组字符

[ ]里的字符是或关系，[A-Z]表示匹配一个字符是否为大写字母
()里的字符是且关系，(A-Z)表示匹配一个字符串 'abcd...xyz'

匹配模式参数

re.findall()的第三个参数为模式

忽略大小写：
import re

a = 'pythonC#\nJavaPHP'
r = re.findall('c#',a, re.I | re.S)
print(r)

结果：['C#']
re.I：忽略大小写
re.S：匹配包括\n在内的任意字符
多个模式之间用 '|' ,这里的 '|' 是且的关系。

re.sub正则替换

re.sub(), 五个参数（要替换的匹配表达式，替换成的字符串，被替换的字符串，替换次数，替换模式）

查找并替换：
import re

a = 'PythonC#\nJavaPHP'
r = re.sub('C#','GO',a,0)    
#0：把所有的C#换成GO，1：只有第一个匹配到的被替换成GO
print(r)

结果：PythonGO
     JavaPHP

常规替换可以使用replace函数：
import re

a = 'PythonC#\nJavaPHP'
a = a.replace('C#','GO')    #是sub的简化版，替换所以的C# 为 GO
print(a)

结果：PythonGO
     JavaPHP

sub强大的地方在于其第二个参数可以是一个函数：
import re

def convert(value):
    #此时的value是一个JSON格式，包含了字符串的其他信息
    matched = value.group()    #从对象中提取字符串
    return '!!' + matched + '!!'

a = 'PythonC#JavaPHP'
r = re.sub('C#',convert,a)
print(r)

结果：Python!!C#!!JavaPHP
sub匹配到的字符串后会被传到convert函数中，返回新的字符串来替换匹配到的词。

把函数作为参数传递

找出数字，大于等于6的替换成9，小于6的替换成0：
import re

def convert(value):
    matched = value.group()
    if int(matched) >= 6:
        return '9'
    else:
        return '0'

s = 'A8C3721D86'
r = re.sub('\d',convert,s)
print(r)

结果：A9C0900D99
使用函数修改字符串的方式很灵活。

search与match函数

match：从字符串开始的地方开始匹配(首字母开始匹配)。
search：搜索整个字符串，直到找到第一个满足的结果并返回。

import re

s = 'A8C3721D86'
r = re.match('\d',s)
print(r)

r1 = re.search('\d',s)
print(r1)

结果 r：None

结果 r1：<re.Match object; span=(1, 2), match='8'>
r1.group()  返回字符串的值
r1.span()   返回位置的位置

match和search返回的是对象，且只匹配一次，不会像findall一样匹配所有。

group分组

提取life和python之间的字符： 
import re

s = 'life is short,i use python'
r = re.search('life(.*)python',s)
print(r.group(0))
print(r.group(1))
结果：life is short,i use python
      is short,i use

group(0)是匹配全部内容
group(1)是只提取中间的部分（看分组的数量，第一个就是1，第n个就是n）


import re

s = 'life is short,i use python,i love python'
r = re.search('life(.*)python(.*)python',s)
print(r.group(0))
print(r.group(1))
print(r.group(2))
结果 0：life is short,i use python,i love python
结果 1：is short,i use
结果 2：,i love


r.groups()返回除完整匹配以外的所有结果：
import re

s = 'life is short,i use python,i love python'
r = re.search('life(.*)python(.*)python',s)
print(r.groups())
结果：(' is short,i use ', ',i love ')

JSON

JavaScript Object Notation，是一种轻量级(与XML比)的数据交换格式。
JSON适合做中间语言，进行跨语言交换数据。

JSON应用：前后端分离的数据传输
REST服务的标准格式：JSON。

字符串是JSON的表现形式，符合JSON格式(类似于Python的字典)的字符串就是JSON字符串。

反序列化

反序列化：字符串 -> 语言下某一数据结构的过程

利用python内部的json解析JSON数据：
import json

json_str = '{"name":"tai","age":23}'    #json内用双引号，则外部用单引号表示str
student = json.loads(json_str)  #将json格式的数据转换成python格式的数据
print(type(student))
print(student)
print(student['name'])

结果 type(student)：<class 'dict'>    #解析出来是字典
结果 student：{'name': 'tai', 'age': 23}
结果 student['name']：tai


同样的JSON字符串，不同的语言会装换成不同的类型。其中对应到Python中是字典类型。

 
解析JSON数组：
import json

json_str = '[{"name":"tai","age":23,"flag":false},{"name":"tai","age":23}]'
student = json.loads(json_str) 
print(type(student))
print(student)

结果 type(student)：<class 'list'>    #数组转成了列表
结果 student：[{'name': 'tai', 'age': 23, 'flag': False}, {'name': 'tai', 'age': 23}]

json和python的数据转换列表

JSON	Python
object	dict
array	list
string	str
number	int(float)
true	True
false	False
null	None

序列化：

import json

student = [{"name":"tai","age":23,"flag":False},{"name":"tai","age":23}]
json_str = json.dumps(student)  #将python数据类型转换成JSON数据
print(type(json_str))
print(json_str)

结果 type(json_str)：<class 'str'>
结果 json_str：[{"name": "tai", "age": 23, "flag": false}, {"name": "tai", "age": 23}]

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,544评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,430评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,764评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,193评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,216评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,182评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,063评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,917评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,329评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,543评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,722评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,425评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,019评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,671评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,825评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,729评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,614评论 2赞 353

9、正则表达式与JSON

元字符与普通字符

字符集

概括字符集

数量词

贪婪与非贪婪

匹配次数

边界匹配符

组

匹配模式参数

re.sub正则替换

把函数作为参数传递

search与match函数

group分组

JSON

反序列化

序列化：

推荐阅读更多精彩内容