大家好,我是金鱼座,一个走在测试领域这片蓝海中, 蹉跎前行的技术渣渣,唯有一直走下去,也许能改变点什么,加油!
最近在B站里面看到一个教学视频, 感觉挺好,顺带自己就安排自己也实现一个相同的任务,将A文件夹的所有内容复制到B文件夹中,
实际上这个通过单线程或者单进程来实现还是比较容易的,无非就是获取列表然后将列表中的所有文件在另外一个文件夹中重新写入(也可考虑shutil模块的copy功能)
但是对于大数量情况下串行执行的结果就是效率严重低下,所以考虑使用多进程或者多线程来实现,python的线程规则大家都知道,gil锁导致多线程实际效率也存在不足,所以我选择使用多进程来实现编码(当然此处多线程和多进程在python的一些代码区别上面很小,大家可以同步执行比对)
代码如下:
#!/usr/bin/python3
# -*- coding: utf-8 -*-
"""
@File : abc_test.py
@Author: JACK
@Date : 2019/8/12
@Des :
"""
"""
使用多任务,来copy文件到指定的目录下
"""
import os
import multiprocessing
import time
def copy_file(q, file_name, old_folder_name, new_folder_name):
# print("now run {}".format(file_name))
old_file_path = os.path.join(old_folder_name, file_name)
# 把旧的东西读出来
file = open(old_file_path, 'rb')
content = file.read()
file.close()
# 创建一个新的文件
new_file_path = os.path.join(new_folder_name, file_name)
# 在新的里面写入
new_file = open(new_file_path, 'wb')
new_file.write(content)
new_file.close()
q.put(file_name)
def main():
# 1. 获取目录下的所有文件名称
start_time = time.time()
old_folder_name = 'E:\\2jack项目\\2W_small_imgs'
new_folder_name = 'E:\\2jack项目\\2W_small_imgs_bak(2)'
file_names = os.listdir(old_folder_name)
# 2 新建一个目录
try:
os.mkdir(new_folder_name)
except:
pass
# 3 启动一个进程池
po = multiprocessing.Pool(4)
q = multiprocessing.Manager().Queue()
# 4 分配复制任务到进程池中
for file_name in file_names:
po.apply_async(func=copy_file, args=(q, file_name,old_folder_name,new_folder_name))
po.close()
# po.join() # 等待子进程结束,主进程才结束
count = 0
while True:
file = q.get()
count += 1
print('\r当前执行到 {:.2f}'.format((count/len(file_names))), end="")
if count >= len(file_names):
end_time = time.time()
print("总计耗时:{}".format(end_time-start_time))
break
# print()
if __name__ == "__main__":
main()
此处有个执行数据对比:
当使用单进程执行文件夹目录下2w记录复制完成,总计耗时文件总数20000, 耗时477s
当使用4个进程进行相关操作后,执行效率如下图,耗时71s,
通过比对,可以发现大大节约了时间实现了近7倍的速度提升,同时代码中由于通过进程池Queue的使用,实现了文件执行进度的输出