python_实战篇_使用多进程实现从A文件夹copy到B文件夹

大家好,我是金鱼座,一个走在测试领域这片蓝海中, 蹉跎前行的技术渣渣,唯有一直走下去,也许能改变点什么,加油!

最近在B站里面看到一个教学视频, 感觉挺好,顺带自己就安排自己也实现一个相同的任务,将A文件夹的所有内容复制到B文件夹中,
实际上这个通过单线程或者单进程来实现还是比较容易的,无非就是获取列表然后将列表中的所有文件在另外一个文件夹中重新写入(也可考虑shutil模块的copy功能)

但是对于大数量情况下串行执行的结果就是效率严重低下,所以考虑使用多进程或者多线程来实现,python的线程规则大家都知道,gil锁导致多线程实际效率也存在不足,所以我选择使用多进程来实现编码(当然此处多线程和多进程在python的一些代码区别上面很小,大家可以同步执行比对)
代码如下:

#!/usr/bin/python3
# -*- coding: utf-8 -*-
"""
@File  : abc_test.py
@Author: JACK
@Date  : 2019/8/12
@Des   :
"""

"""
   使用多任务,来copy文件到指定的目录下
"""

import os
import multiprocessing
import time


def copy_file(q, file_name, old_folder_name, new_folder_name):
    # print("now run {}".format(file_name))
    old_file_path = os.path.join(old_folder_name, file_name)
    # 把旧的东西读出来
    file = open(old_file_path, 'rb')
    content = file.read()
    file.close()

    # 创建一个新的文件
    new_file_path = os.path.join(new_folder_name, file_name)
    # 在新的里面写入
    new_file = open(new_file_path, 'wb')
    new_file.write(content)
    new_file.close()

    q.put(file_name)

def main():
    # 1. 获取目录下的所有文件名称
    start_time = time.time()
    old_folder_name = 'E:\\2jack项目\\2W_small_imgs'
    new_folder_name = 'E:\\2jack项目\\2W_small_imgs_bak(2)'

    file_names = os.listdir(old_folder_name)
    # 2 新建一个目录
    try:
        os.mkdir(new_folder_name)
    except:
        pass

    # 3 启动一个进程池
    po = multiprocessing.Pool(4)

    q = multiprocessing.Manager().Queue()
    # 4 分配复制任务到进程池中
    for file_name in file_names:
        po.apply_async(func=copy_file, args=(q, file_name,old_folder_name,new_folder_name))

    po.close()
    # po.join()  # 等待子进程结束,主进程才结束

    count = 0
    while True:
        file = q.get()
        count += 1
        print('\r当前执行到 {:.2f}'.format((count/len(file_names))), end="")
        if count >= len(file_names):
            end_time = time.time()
            print("总计耗时:{}".format(end_time-start_time))
            break
        # print()

if __name__ == "__main__":
    main()

此处有个执行数据对比:
当使用单进程执行文件夹目录下2w记录复制完成,总计耗时文件总数20000, 耗时477s
当使用4个进程进行相关操作后,执行效率如下图,耗时71s

image.png

通过比对,可以发现大大节约了时间实现了近7倍的速度提升,同时代码中由于通过进程池Queue的使用,实现了文件执行进度的输出

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容