共计 4905 个字符,预计需要花费 13 分钟才能阅读完成。
神奇的 collections
大家好,今天想和大家分享一个 Python 里面非常棒的模快:Collections
该模块实现了专门的容器数据类型,为 Python 的通用内置容器提供了替代方案,如果对源码感兴趣的朋友们可以在 Lib/collections/__init__.py 路径下找到
基于我目前的学习经验,以下几种类型用的很多:
defaultdict (dict 子类调用工厂函数来提供缺失值)
counter (用于计算可哈希对象的 dict 子类)
deque (类似于列表的容器,可以从两端操作)
namedtuple (用于创建具有命名字段的 tuple 子类的工厂函数)
好啦,看到什么工厂函数,可哈希对象,容器这些词汇不要慌,我第一次看是懵逼并直接跳过的,然而后来发现根本不需要理解,如果大家感兴趣可以自己去查询,这里还是老样子,通过大量实例来一个个讲解就好啦!
defaultdict
基础概念
“defaultdict”是在名为“collections”的模块中定义的容器。它需要一个函数(默认工厂)作为其参数。默认情况下设置为“int”,即 0. 如果键不存在则为 defaultdict,并返回并显示默认值。
我用人话解释一下: 其实就是一个查不到 key 值时不会报错的 dict
应用实例
首先我们来看一个用正常 dict 的例子,如果我们创建了一个叫 person 的字典,里面存储的 key 值为 name,age,如果这时候尝试调用 person[‘city’],会抛出 KeyError 错误,因为没有 city 这个键值:
person = {‘name’:’xiaobai’,’age’:18}
print (“The value of key ‘name’ is : “,person[‘name’])
print (“The value of key ‘city’ is : “,person[‘city’])
Out: The value of key ‘name’ is : xiaobai
Traceback (most recent call last):
File “C:\Users\E560\Desktop\test.py”, line 17, in <module>
print (“The value of key ‘city’ is : “,person[‘city’])
KeyError: ‘city’
现在如果我们用 defaultdict 再试试呢?
from collections import defaultdict
person = defaultdict(lambda : ‘Key Not found’) # 初始默认所有 key 对应的 value 均为‘Key Not Found’
person[‘name’] = ‘xiaobai’
person[‘age’] = 18
print (“The value of key ‘name’ is : “,person[‘name’])
print (“The value of key ‘adress’ is : “,person[‘city’])
Out:The value of key ‘name’ is : xiaobai
The value of key ‘adress’ is : Key Not found
大家可以发现,这次没有问题了,其实最根本的原因在于当我们创建 defaultdict 时,首先传递的参数是所有 key 的默认 value 值,之后我们添加 name,age 进去的时候才会有所改变,当我们最终查询时,如果 key 存在,那就输出对应的 value 值,如果不存在,就会输出我们事先规定好的值‘Key Not Found’
除此之外外,我们还可以利用 defaultdict 创建时,传递参数为所有 key 默认 value 值这一特性,实现一些其他的功能, 比如:
from collections import defaultdict
d = defaultdict(list)
d[‘person’].append(“xiaobai”)
d[‘city’].append(“paris”)
d[‘person’].append(“student”)
for i in d.items():
print(i)
Out: (‘person’, [‘xiaobai’, ‘student’])
(‘city’, [‘paris’])
一个道理,我们默认所有 key 对应的是一个 list,自然就可以在赋值时使用 list 的 append 方法了。再比如下面这个例子:
from collections import defaultdict
food = (
(‘jack’, ‘milk’),
(‘Ann’, ‘fruits’),
(‘Arham’, ‘ham’),
(‘Ann’, ‘soda’),
(‘jack’, ‘dumplings’),
(‘Ahmed’, ‘fried chicken’),
)
favourite_food = defaultdict(list)
for n, f in food:
favourite_food[n].append(f)
print(favourite_food)
Out:defaultdict(<class ‘list’>, {‘jack’: [‘milk’, ‘dumplings’], ‘Ann’: [‘fruits’, ‘soda’], ‘Arham’: [‘ham’], ‘Ahmed’: [‘fried chicken’]})
道理和上面差不多,这里大家可以自己拓展,展开想象,相信可能在某个时刻可以用的上 defaultdict 这个容器
counter
基础概念
Counter 是 dict 的子类。因此,它是一个无序集合,其中元素及其各自的计数存储为字典。这相当于其他语言的 bag 或 multiset。
我的理解就是一个计数器,返回一个字典,key 就是出现的元素,value 就是该元素出现的次数
应用实例
计数器没啥可说的,还能干啥,计数呗!
from collections import Counter
count_list = Counter([‘B’,’B’,’A’,’B’,’C’,’A’,’B’,’B’,’A’,’C’]) #计数 list
print (count_list)
count_tuple = Counter((2,2,2,3,1,3,1,1,1)) #计数 tuple
print(count_tuple)
Out:Counter({‘B’: 5, ‘A’: 3, ‘C’: 2})
Counter({1: 4, 2: 3, 3: 2})
Counter 一般不会用于 dict 和 set 的计数,因为 dict 的 key 是唯一的,而 set 本身就不能有重复元素
现在我们也可以直接把在 defaultdict 例子中用过 food 元组拿来计数:
from collections import Counter
food = (
(‘jack’, ‘milk’),
(‘Ann’, ‘fruits’),
(‘Arham’, ‘ham’),
(‘Ann’, ‘soda’),
(‘jack’, ‘dumplings’),
(‘Ahmed’, ‘fried chicken’),
)
favourite_food_count = Counter(n for n,f in food) #统计 name 出现的次数
print(favourite_food_count)
Out: Counter({‘jack’: 2, ‘Ann’: 2, ‘Arham’: 1, ‘Ahmed’: 1})
deque
基础概念
在我们需要在容器两端的更快的添加和移除元素的情况下,可以使用 deque. 我的个人理解是 deque 就是一个可以两头操作的容器,类似 list 但比列表速度更快
应用实例
deque 的方法有很多,很多操作和 list 类似,也支持切片
from collections import deque
d = deque()
d.append(1)
d.append(2)
d.append(3)
print(len(d))
print(d[0])
print(d[-1])
Out: 3
1
3
deque 最大的特点在于我们可以从两端操作:
d = deque([i for i in range(5)])
print(len(d))
# Output: 5
d.popleft() # 删除并返回最左端的元素
# Output: 0
d.pop() # 删除并返回最右端的元素
# Output: 4
print(d)
# Output: deque([1, 2, 3])
d.append(100) # 从最右端添加元素
d.appendleft(-100) # 从最左端添加元素
print(d)
# Output: deque([-100, 1, 2, 3, 100])
除了这些 deque 的方法实在太多了,比如我再举几个常用的例子,首先我们定义一个 deque 时可以规定它的最大长度,deque 和 list 一样也支持 extend 方法,方便列表拼接,但是 deque 提供双向操作:
from collections import deque
d = deque([1,2,3,4,5], maxlen=9) #设置总长度不变
d.extendleft([0]) # 从左端添加一个 list
d.extend([6,7,8]) # 从右端拓展一个 list
print(d)
Out:deque([0, 1, 2, 3, 4, 5, 6, 7, 8], maxlen=9)
现在 d 已经有 9 个元素了,而我们规定的 maxlen=9,这个时候如果我们从左边添加元素,会自动移除最右边的元素,反之也是一样:
d.append(100)
print(d)
d.appendleft(-100)
print(d)
Out: deque([1, 2, 3, 4, 5, 6, 7, 8, 100], maxlen=9)
deque([-100, 1, 2, 3, 4, 5, 6, 7, 8], maxlen=9)
deque 还有很多其他的用法,大家根据各自的需要去自己寻宝吧!
namedtuple
基础概念
名称元组。大家一看名字就会感觉和 tuple 元组有关,没错,我认为它是元组的强化版 namedtuple 可以将元组转换为方便的容器。使用 namedtuple,我们不必使用整数索引来访问元组的成员。
我觉得可以把 namedtuple 视为 不可变的 字典
应用实例
首先,让我们先回顾一下普通元组是如何访问成员的:
person = (‘xiaobai’, 18)
print(person[0])
out:xiaobai
现在我们看看 namedtuple(名称元组)的强大之处:
from collections import namedtuple
Person = namedtuple(‘Person’, ‘name age city’) # 类似于定义 class
xiaobai = Person(name=”xiaobai”, age=18, city=”paris”) # 类似于新建对象
print(xiaobai)
Out:Person(name=’xiaobai’, age=18, city=’paris’)
我们创建 namedtuple 时非常像定义一个 class,这里 Person 好比是类名,第二个参数就是 namedtuple 的值的名字了,我感觉很像 class 里的属性,不过这里不用加逗号分离,下面让我们看看如何访问 namedtuple 的成员:
print(xiaobai.name)
print(xiaobai.age)
print(xiaobai.city)
out:xiaobai
18
paris
“ 爽啊,爽死了 ”,郭德纲看到这里不禁赞叹
这种无限接近 class 调用属性的方式还是非常不错的,在一些实际场景很有用。最后还有一点千万不要忘了,我们不能修改 namedtuple 里的值:
xiaobai.name = ‘laobai’
Out:Traceback (most recent call last):
File “C:\Users\E560\Desktop\test.py”, line 5, in <module>
xiaobai.name = ‘laobai’
AttributeError: can’t set attribute
总结
今天为大家简单介绍了 collections 的一些基础容器类型,我把它成为宝藏感觉还是不过分的,因为这些容器在真正使用场景中的确非常有用,而且我发现很多教程大多不会提到,衷心希望可以帮到大家,如果我哪里介绍错误或者遗漏,希望大家留言指出,让我们一起进步!