记录提高Python程序性能、可读性的小技巧

编写Python程序的时候，有时会遇到“业务逻辑很好理解，但写成代码感觉又丑又慢”的情况，于是计划用此篇总结这类问题。

以下网址列举了Python中常用操作的时间复杂度，可用于参考。
https://wiki.python.org/moin/TimeComplexity

实现矩阵存储结构

在多数编程语言中，我们可以使用二维数组表达一个二维矩阵，在Python中需要首先声明并创建一个“list的list”，并使用预定义的一个值填充：

>>> m, n = 10, 20
>>> none_matrix = [[None for i in range(m)] for j in range(n)]
>>> zero_matrix = [[0 for i in range(m)] for j in range(n)]

之后可以用和其他C系语言类似的方法访问、设置(m, n)位置的元素：

>>> none_matrix[3][2]
# None
>>> none_matrix[3][2] = 10
>>> none_matrix[3][2]
10

另一种思路是使用dict描述矩阵。在Python中dict的key可以为任意不可变类型对象，因此可以使用元组（tuple）作为dict的key，一个元组可以描述任意一个n元坐标。这种方法适合存储稀疏矩阵，即矩阵中绝大部分的值都是默认值的矩阵，对比使用list的传统方法，使用dict存储稀疏矩阵更省内存。同时非常灵活，可以使用元组以外的key保存额外信息。

使用dict的常用的d[(x, y)]来设置值，get方法和default参数获取矩阵某个值。如果使用d[(x, y)]获取值，在值为默认时因为不存在具体值导致KeyError。顺带，对某个dict，例如d，做d[1, 2]，实际上是做d[(1, 2)]，键为元组(1, 2)。

>>> matrix = {}
>>> matrix.get((3, 5))
# None
>>> matrix.get((3, 5), 0)
0
>>> matrix[3, 5] = 10
>>> matrix.get((3, 5))
10

可以考虑使用collections.defaultdict类代替dict。defaultdict类继承dict，唯一区别在于可以为整个字典设置一个键对应值不存在时的默认返回值。

>>> from collections import defaultdict
>>> none_matrix = defaultdict(lambda: None)
>>> none_matrix[3, 5]
# None
>>> zero_matrix = defaultdict(float)
>>> zero_matrix[3, 5]
0

可以自定义一个矩阵类，内部使用dict实现，对接口进行包装，提高代码可读性。

第三种看起来更为“专业”的方法是使用numpy的numpy.matrix类。

可以参考https://docs.scipy.org/doc/numpy/reference/generated/numpy.matrix.html

测试两个list是否包含共同元素

问题：对于两个list，判断是否包含相等的元素。
例如假设有

a = [1, 2, 3]
b = [2, 3, 4]
c = [4, 5, 6]

那么a和b有共同元素2和3，a和c没有共同元素。

来自 https://stackoverflow.com/questions/3170055/test-if-lists-share-any-items-in-python 的回答提到了一些方法。

第一种方法 Set Intersection：

bool(set(a) & set(b))

Python中的set使用Hash表，搜索的时间复杂度为O(1)，考虑到Hash冲突，性能可能略低于理想，但通常仍在O(1)数量级。对于两个set进行交操作的总体时间复杂度是O(m+n)。
此种方法要考虑set(some_list)操作，即从list创建set所消耗的时间。暂且没有查阅相关机制，猜测时间上是O(n)，对两个list分别创建set时间复杂度是O(m+n)，同时占用额外空间，复杂度O(m+n)。

第二种方法 Generator Expression：

any(i in a for i in b)

本质上是朴素嵌套循环的优雅写法。python中对于list的in操作复杂度是O(n)，整个方法的平均时间复杂度是O(m*n)。对于any，有满足条件就终止的特性，所以可能不需要完整遍历就完成计算。

第三种方法 Hybrid：

a = set(a)
any(i in a for i in b)

本质上是之前两种算法的混合。

第四种方法 isdisjoint:

not set(a).isdisjoint(b)

关于set类型isdisjoint方法，disjoint意为不相交的，若set_a和set_b没有共同元素，则set_a.isdisjoint(set_b)返回True。

性能&总结
原回答对四种方法，分别考虑“重合元素在开始”、“重合元素在末尾”、“随机元素高重合率”、“随机元素低重合率”做了测试，并能够得出部分结论如下：

绝大多数情况下 方法4 isdisjoint 最快，一般场景可以直接使用此方法
如果list中元素较多，已知大多数情况下两个list中有相同元素，且有很高的元素重合率，list有序，那么 方法2 Generator Expression 有很高几率更快，因为“遇到相同即终止”，不需要完整遍历。
遇到“两个list没有重复元素”的情况，方法2 Generator Expression 很慢。

最后编辑于：2017.12.09 02:21:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,701评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,649评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,037评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,994评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,018评论 6赞 395
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,796评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,481评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,370评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,868评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,014评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,153评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,832评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,494评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,039评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,156评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,437评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,131评论 2赞 356

记录提高Python程序性能、可读性的小技巧

实现矩阵存储结构

测试两个list是否包含共同元素

推荐阅读更多精彩内容