登录注册写文章

处理大数据选择set不要用list

处理大数据选择set不要用list

代码片段（set）

ls_9 = df_9['mmsi'].tolist()
s_9 = set(ls_9)
print(len(ls_9))
print(ls_9[1853508 - 1])
start_time = time.time()
if str(999999999) in s_9:
    end_time = time.time()
    print(end_time - start_time)

运行结果

1853508
999999999
0.0

代码片段(list)

start_time = time.time()
if str(999999999) in ls_9:
    end_time = time.time()
    print(end_time - start_time)

运行结果

1853508
999999999
0.041977882385253906

原因我也不清楚；
我曾猜测是因为set把list原有的序列打乱；
这样原来在最后一条的数据位置可能提到了前面，因此加快了查询速度；
但如果两组数据进行比对,set还是快很多的话，那么问题就别这么简单了！

最后编辑于：2020.02.02 16:49:53

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

批处理学习及实际应用
个人学习批处理的初衷来源于实际工作；在某个迭代版本有个BS（安卓手游模拟器）大需求，从而在测试过程中就重复涉及到...
Luckykailiu阅读 10,233评论 0赞 11
11-数据结构、List、Set、Collections
数据结构 List集合 Set集合 Collections 数据结构数据存储的常用结构有：栈、队列、数组、链表和...
LiMingRan阅读 2,962评论 0赞 0

bash
官网中文版本好的网站 Content-type: text/htmlBASH Section: User ...
不排版阅读 9,947评论 0赞 5
《编写高质量代码》学习笔记（2）
写着写着发现简书提醒我文章接近字数极限，建议我换一篇写了。建议52：推荐使用String直接量赋值一般对象都是...
我没有三颗心脏阅读 5,174评论 2赞 4
思
两相望自难忘两相忘自难望
何处明此心阅读 1,339评论 0赞 1

赞1赞

赞赏

手机看全文