我是如何跨专业零基础学习Python爬虫的（3 使用set对list去重）

在上一篇文章中我们看到了Python对于清单（list）的处理方法，而在实际的爬虫过程中，当我们将上万条数据存储并提取list之后，常遇到的一个问题是怎么去掉list中重复的元素而只保留不重复的元素，这个时候我们就要用到今天展示的set方法。

比如列表a = [5, 2, 5, 1, 4, 3, 4]，可以用如下方式实现

a = [5, 2, 5, 1, 4, 3, 4]

print list(set(a))

如果想要保持他们原来的排序：

用list类的sort方法

l1 =['b','c','d','b','c','a','a']

l2 =list(set(l1))

l2.sort(key=l1.index)

printl2

也可以这样写

l1 =['b','c','d','b','c','a','a']

l2 =sorted(set(l1),key=l1.index)

printl2

也可以用遍历

l1 =['b','c','d','b','c','a','a']

l2 =[]

fori inl1:

ifnoti inl2:

l2.append(i)

printl2

上面的代码也可以这样写

l1 =['b','c','d','b','c','a','a']

l2 =[]

[l2.append(i) fori inl1 ifnoti inl2]

printl2

这样就可以保证排序不变了：

1['b', 'c', 'd', 'a']

Python中set集合对象还支持union(联合[|])、intersection(交[&])、difference(差[-])和sysmmetric

difference(对称差集^)等数学运算。如下：

a = set('abracadabra')

b = set('alacazam')

# a包含且b包含的字符

print a & b

print a.intersection(b)

# a包含或b包含的字符

print a | b

print a.union(b)

# a包含且b不包含的字符

print a - b

print a.difference(b)

# a包含且b不包含的字符和b包含且a不包含的字符

print a ^ b

最后编辑于：2017.12.19 15:16:21

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

我是如何跨专业零基础学习Python爬虫的（3 使用set对list去重）

我是如何跨专业零基础学习Python爬虫的（3 使用set对list去重）

相关阅读更多精彩内容

友情链接更多精彩内容