Python模块之collections

collections是Python内建的一个集合模块,提供了许多有用的集合类。

defaultdict

我们都知道,在使用Python原生的数据结构dict的时候,如果用d[key]这样的方式访问,当指定的key不存在时,是会抛出KeyError异常的。
但是,如果使用defaultdict,只要你传入一个默认的工厂方法,那么请求一个不存在的key时,便会调用这个工厂方法使用其结果来作为这个key的默认值。

from collections import defaultdict

# 当d[key]不存在时返回默认值
# 默认值是调用函数返回的,而函数在创建defaultdict对象时传入
dd = defaultdict(lambda: 'N/A')
dd['key1'] = 'abc'
print(dd['key1']) # key1存在
print(dd['key2']) # key2不存在,返回默认值
abc
N/A
# 将键映射到多个值上
members = [
    # Age, name
    ['male', 'John'],
    ['male', 'Jack'],
    ['female', 'Lily'],
    ['male', 'Pony'],
    ['female', 'Lucy'],
]

result = defaultdict(list)
for sex, name in members:
    result[sex].append(name)

print(result)
defaultdict(<class 'list'>, {'female': ['Lily', 'Lucy'], 'male': ['John', 'Jack', 'Pony']})

OrderedDict

在Python中,dict这个数据结构由于hash的特性,是无序的,这在有的时候会给我们带来一些麻烦,幸运的是,collections模块为我们提供了一个有序的字典对象OrderedDict。

OrderedDict内部维护了一个双向链表,会根据元素加入的顺序来排列键的位置。OrderedDict的大小是普通字典的2倍多。

from collections import OrderedDict

items = (
    ('A', 1),
    ('B', 2),
    ('C', 3)
)

regular_dict = dict(items)
ordered_dict = OrderedDict(items)

print(regular_dict)
print(ordered_dict)
{'A': 1, 'C': 3, 'B': 2}
OrderedDict([('A', 1), ('B', 2), ('C', 3)])

namedtuple()

对列表和元组一般是通过下表来访问的,有时这种访问方式有些难以阅读。我们想要通过名字来访问元素以此减少结构中对位置的依赖,这时就可以使用namedtuple()。namedtuple()是一个工厂方法,它返回的是python中标准元组类型的子类。我们提供给它一个类型名称及相应的字段,它返回一个可实例化的类、为你已经定义好的字段传入值等。

records = [
    ('apple', 2.8, 6),
    ('banada', 1.5, 8),
    ('peach', 2.2, 12),
    ('pear', 1.8, 5)
]

def compute_cost(records):
    total = 0
    for rec in records:
        total += rec[1]*rec[2]
    return total

print(compute_cost(records))
64.2
from collections import namedtuple

Fruit = namedtuple('Fruit', ['name', 'price', 'count'])
def compute_cost2(records):
    total = 0
    for rec in records:
        fruit = Fruit(*rec)
        total += fruit.price*fruit.count
    return total

print(compute_cost2(records))
64.2

namedtuple()的一种可能用法是用来代替dict,与普通dict不同的是,namedtuple是不可变的,如果需要改变属性,可以通过namedtuple实例的_replace()方法。该方法创建一个全新的命名组,并对相应值进行替换。

Fruit = namedtuple('Fruit', ['name', 'price', 'count'])
fruit = Fruit('apple', 2.8, 6)
print(fruit)
# fruit.price=3 # 返回AttributeError: can't set attribute
fruit = fruit._replace(price=3)
print(fruit)
Fruit(name='apple', price=2.8, count=6)
Fruit(name='apple', price=3, count=6)

Counter

找出序列中出现次数最多的元素可以用collections模块中的Counter类来实现 Counter的底层是一个字典,在元素和它们出现的次数间做了一个映射。Counter对象提供任何可哈希的对象序列作为输入。

from collections import Counter

words = ['a', 'a', 'b', 'a', 'e', 'f', 'a', 'e', 'e', 'd', 'd']
count = Counter(words)
print(count) 
print(count.most_common(3)) # 出现次数最多的前三个元素
Counter({'a': 4, 'e': 3, 'd': 2, 'f': 1, 'b': 1})
[('a', 4), ('e', 3), ('d', 2)]
print(count['f'])
count['f'] += 1 # 还可以手动增加某个元素的出现次数
print(count['f'])
1
2
print(count)
words_2 = ['b', 'a', 'c']
count.update(words_2) # update方法可以更新count的数据
print(count)
Counter({'a': 4, 'e': 3, 'f': 2, 'd': 2, 'b': 1})
Counter({'a': 5, 'e': 3, 'd': 2, 'f': 2, 'b': 2, 'c': 1})
# Counter对象的各种运算
a = Counter(words)
b = Counter(words_2)
print(a)
print(b)
print(a + b)
print(a - b)
Counter({'a': 4, 'e': 3, 'd': 2, 'f': 1, 'b': 1})
Counter({'c': 1, 'b': 1, 'a': 1})
Counter({'a': 5, 'e': 3, 'd': 2, 'b': 2, 'c': 1, 'f': 1})
Counter({'e': 3, 'a': 3, 'd': 2, 'f': 1})

deque

使用list存储数据时,按索引访问元素很快,但是插入和删除元素就很慢了,因为list是线性存储,数据量大的时候,插入和删除效率很低。
deque是为了高效实现插入和删除操作的双向列表,deque其实是double-ended queue的缩写,翻译过来就是双端队列。deque除了实现list的append()和pop()外,还支持appendleft()和popleft(),这样就可以非常高效地往头部添加或删除元素。

from collections import deque
q = deque(['a', 'b', 'c'])
q.append('x')
q.appendleft('y')
print(q)
q.popleft()
print(q)
deque(['y', 'a', 'b', 'c', 'x'])
deque(['a', 'b', 'c', 'x'])

作为一个双端队列,deque还提供了一些其他的好用方法,比如 rotate 等

import sys
import time
from collections import deque

fancy_loading = deque('>--------------------')
n = 0
while n<2*len(fancy_loading):
    print('%s \r' % ''.join(fancy_loading), end='') # python3中print会自动换行,设置end=''可以不换行
#     sys.stdout.write('%s \r' % ''.join(fancy_loading)) # \r表示换行,回到行首
    fancy_loading.rotate(1)
    sys.stdout.flush()
    time.sleep(0.1)
    n += 1
-------------------->

参考

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容