记录提高Python程序性能、可读性的小技巧

编写Python程序的时候,有时会遇到“业务逻辑很好理解,但写成代码感觉又丑又慢”的情况,于是计划用此篇总结这类问题。

以下网址列举了Python中常用操作的时间复杂度,可用于参考。
https://wiki.python.org/moin/TimeComplexity

实现矩阵存储结构

在多数编程语言中,我们可以使用二维数组表达一个二维矩阵,在Python中需要首先声明并创建一个“list的list”,并使用预定义的一个值填充:

>>> m, n = 10, 20
>>> none_matrix = [[None for i in range(m)] for j in range(n)]
>>> zero_matrix = [[0 for i in range(m)] for j in range(n)]

之后可以用和其他C系语言类似的方法访问、设置(m, n)位置的元素:

>>> none_matrix[3][2]
# None
>>> none_matrix[3][2] = 10
>>> none_matrix[3][2]
10

另一种思路是使用dict描述矩阵。在Python中dict的key可以为任意不可变类型对象,因此可以使用元组(tuple)作为dict的key,一个元组可以描述任意一个n元坐标。这种方法适合存储稀疏矩阵,即矩阵中绝大部分的值都是默认值的矩阵,对比使用list的传统方法,使用dict存储稀疏矩阵更省内存。同时非常灵活,可以使用元组以外的key保存额外信息。

使用dict的常用的d[(x, y)]来设置值,get方法和default参数获取矩阵某个值。如果使用d[(x, y)]获取值,在值为默认时因为不存在具体值导致KeyError。顺带,对某个dict,例如d,做d[1, 2],实际上是做d[(1, 2)],键为元组(1, 2)

>>> matrix = {}
>>> matrix.get((3, 5))
# None
>>> matrix.get((3, 5), 0)
0
>>> matrix[3, 5] = 10
>>> matrix.get((3, 5))
10

可以考虑使用collections.defaultdict类代替dict。defaultdict类继承dict,唯一区别在于可以为整个字典设置一个键对应值不存在时的默认返回值。

>>> from collections import defaultdict
>>> none_matrix = defaultdict(lambda: None)
>>> none_matrix[3, 5]
# None
>>> zero_matrix = defaultdict(float)
>>> zero_matrix[3, 5]
0

可以自定义一个矩阵类,内部使用dict实现,对接口进行包装,提高代码可读性。

第三种看起来更为“专业”的方法是使用numpy的numpy.matrix类。

可以参考https://docs.scipy.org/doc/numpy/reference/generated/numpy.matrix.html

测试两个list是否包含共同元素

问题:对于两个list,判断是否包含相等的元素。
例如假设有

a = [1, 2, 3]
b = [2, 3, 4]
c = [4, 5, 6]

那么ab有共同元素23ac没有共同元素。

来自 https://stackoverflow.com/questions/3170055/test-if-lists-share-any-items-in-python 的回答提到了一些方法。

  1. 第一种方法 Set Intersection
bool(set(a) & set(b))

Python中的set使用Hash表,搜索的时间复杂度为O(1),考虑到Hash冲突,性能可能略低于理想,但通常仍在O(1)数量级。对于两个set进行交操作的总体时间复杂度是O(m+n)
此种方法要考虑set(some_list)操作,即从list创建set所消耗的时间。暂且没有查阅相关机制,猜测时间上是O(n),对两个list分别创建set时间复杂度是O(m+n),同时占用额外空间,复杂度O(m+n)

  1. 第二种方法 Generator Expression
any(i in a for i in b)

本质上是朴素嵌套循环的优雅写法。python中对于listin操作复杂度是O(n),整个方法的平均时间复杂度是O(m*n)。对于any,有满足条件就终止的特性,所以可能不需要完整遍历就完成计算。

  1. 第三种方法 Hybrid
a = set(a)
any(i in a for i in b)

本质上是之前两种算法的混合。

  1. 第四种方法 isdisjoint:
not set(a).isdisjoint(b)

关于set类型isdisjoint方法,disjoint意为不相交的,若set_aset_b没有共同元素,则set_a.isdisjoint(set_b)返回True

  1. 性能&总结
    原回答对四种方法,分别考虑“重合元素在开始”、“重合元素在末尾”、“随机元素高重合率”、“随机元素低重合率”做了测试,并能够得出部分结论如下:
  • 绝大多数情况下 方法4 isdisjoint 最快,一般场景可以直接使用此方法
  • 如果list中元素较多,已知大多数情况下两个list中有相同元素,且有很高的元素重合率,list有序,那么 方法2 Generator Expression 有很高几率更快,因为“遇到相同即终止”,不需要完整遍历。
  • 遇到“两个list没有重复元素”的情况,方法2 Generator Expression 很慢。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容

  • 最近在慕课网学习廖雪峰老师的Python进阶课程,做笔记总结一下重点。 基本变量及其类型 变量 在Python中,...
    victorsungo阅读 1,674评论 0 5
  • 背景 一年多以前我在知乎上答了有关LeetCode的问题, 分享了一些自己做题目的经验。 张土汪:刷leetcod...
    土汪阅读 12,743评论 0 33
  • http://python.jobbole.com/85231/ 关于专业技能写完项目接着写写一名3年工作经验的J...
    燕京博士阅读 7,566评论 1 118
  • 一、python 变量和数据类型 1.整数 Python可以处理任意大小的整数,当然包括负整数,在Python程序...
    绩重KF阅读 1,677评论 0 1
  • 在这个快速变化的时代,怎样成功转型是困扰很多企业的问题。尚德机构是中国最大的学历教育和职业教育培训机构之一...
    我们的美好家园阅读 498评论 0 0