一个ForkJoin并行任务的实际应用

先交代背景,因为我有好多照片存在不同的电脑和移动硬盘备份,平时又喜欢摄影,有时候相机的照片和手机拍的需要同步到所有设备,保证所有设备上的照片都是一样的,但是有时候会各种原因导致图片不同步,人为查找排除很麻烦何况我有10000+照片(其实里面没有几张自己的。。),首先想到的是根据文件名判重,考虑到会有重名的文件,严谨起见采取对照片摘要MD5,再去判重。其次是对这些MD5的过滤找到设备各自独有的照片进行复制同步即可。(插一句,有想过用Git管理这些二进制文件,没有具体试过,哪天闲了就试试~若有大侠搞过望不吝赐教!)

今天主要进行的是给一个顶级目录,递归生成所有文件的MD5信息,采取的是Fork/Join并行框架+命令行的方式 {#今天主要进行的是给一个顶级目录递归生成所有文件的md5信息采取的是forkjoin并行框架命令行的方式}

下边这段可以略过,不过看看也没坏处~

至于为什么这样做,说说心路历程,刚开始想用Qt+C++的方式,考虑到开发效率(我想速成)再考虑之前Qt写的几个工具,果断放弃;后来想用Python无奈自己Python太弱,也放弃;再后来想用JavaFx,还需要边学边搞,win下编程C#MFC压根没搞过,这啥啥不会真捉急啊,总不能逼我在Linux上拿C||Shell写吧,好吧我承认我事儿倍多:);那就用控制台吧,写个Java这样还可以把几个步骤分开来写单独优化,操作起来几个命令行敲一下黑屏白字滚动起来。。。想想都有点酸爽。扯了这么多,最终就是实现一个Java工具类,给他一个顶级目录,他会自动生成一个清单文件,里面是MD5和对应的文件路径信息,当然是基于并行执行任务框架做的,接下来开始吧

并行执行核心思想是大的任务递归分解为粒度较小的任务,然后每个小的任务执行完返回执行结果,汇总成一个最终的结果 {#并行执行核心思想是大的任务递归分解为粒度较小的任务然后每个小的任务执行完返回执行结果汇总成一个最终的结果}

在本文中,遍历一个给定的顶级文件夹并输出所有内部文件的摘要,这就是最终的任务,这个任务要并行执行为了提高效率必须划分成小任务并行执行它们并收集执行结果,先看看整体的代码:

public class Filter {
    static ForkJoinPool mPool = null;
    static List<File> mList = new ArrayList<>();

    public static void main(String[] args) {
        for (int i = 0; i < args.length; i++) {
            switch (args[i]) {
            /* 指定并行执行所需线程数量 eg (-j 8) 指定线程池有8个线程*/
                case "-j":
                    mPool = new ForkJoinPool(Integer.parseInt(args[++i]));
                    break;

            /* 指定顶级目录列表 */
                default:
                    mList.add(new File(args[i]));
                    break;
            }
        }

        /* 具体分配执行 */
        new Executor().invokeTask();
    }

    /*
    * 具体的顶级任务执行器
    */
    static class Executor {
        long start = 0;
        long end1 = 0;
        long end2 = 0;

        private List<GenMd5Task> mTasks = new ArrayList<>();
        private List<Map<String, String>> mapList = new ArrayList<>();

        public Executor() {
            if (mPool == null) {
                mPool = new ForkJoinPool();
            }
        }

        public List<Map<String, String>> invokeTask() {
            end1 = end2 = start = System.currentTimeMillis();

            for (File file : mList) {
                /* 划分的子任务*/ 
                GenMd5Task task = new GenMd5Task(file);
                mTasks.add(task);
                /* 调用任务并等待返回执行结果 */
                Map<String, String> map = mPool.invoke(task);
                mapList.add(map);

                end1 = System.currentTimeMillis();

                /* 把最终计算结果记录到文件中 */ 
                FileUtil.writeMapToFile(file.getName() + System.currentTimeMillis() + "-md5.txt",
                        map);

                end2 = System.currentTimeMillis();
            }

            /* 统计耗时 */
            System.out.println("computer time: " + (end1 - start) + "ms");
            System.out.println("write file time: " + (end2 - end1) + "ms");

            mPool.shutdown();

            return mapList;
        }
    }
}

上边代码是工具类主体,需要执行参数,比如java Filter -j 8 C:\Users\yy\xxx

主要的工作都在Executor的invokeTask中完成,里面有一个GenMd5Task的类,继承自RecursiveTask,表示一个又返回值的task,还有一个没有返回值的类RecursiveAction

public class GenMd5Task extends RecursiveTask<Map<String, String>> {
    private HashMap<String, String> mMap;
    private File mFile;
    private List<GenMd5Task> mTasks;

    public GenMd5Task(File file) {
        mFile = file;
    }

    @Override
    protected Map<String, String> compute() {
        mMap = new HashMap();
        File[] files = mFile.listFiles();
        mTasks = new ArrayList<>();

        for (File f : files) {
            System.out.println(f.getAbsoluteFile());
            if (f.isFile()) {
                mMap.put(DigestUtil.getMd5(FileUtil.getBytes(f)), f.getAbsolutePath());
            } else {
                /* 上边是文件直接计算MD5放进当前结果Map中 */
                /* 下边是当前目录一级子目录,再次创建一个子任务,添加进任务列表,一会并发执行这些任务 */ 
                GenMd5Task task = new GenMd5Task(f);
                mTasks.add(task);
            }
        }

        /* 执行所有任务 并汇总结果*/ 
        invokeAll(mTasks);
        for (GenMd5Task task : mTasks) {
            mMap.putAll(task.join());
        }

        return mMap;
    }
}

上边看到是直接按照所有子目录对应一个子任务的方式去分配的,这样可能并不是性能最优,留待以后解决,同时还需要注意一点的是,这儿是在任务计算过程中动态添加任务的,每一个上级任务都在等待其所有的子任务执行完毕返回结果,像一个倒立的树状结构,每一个叶子节点都是一个最小粒度的任务,在这里是当前目录下只包含文件没有其它目录的时候

其中用到的两个工具类附上代码: {#其中用到的两个工具类附上代码}

public class FileUtil {
    public static byte[] getBytes(File f) {
        ByteArrayOutputStream bos = new ByteArrayOutputStream((int) f.length());
        BufferedInputStream in = null;

        try {
            in = new BufferedInputStream(new FileInputStream(f));
            int buf_size = 4096;
            byte[] buffer = new byte[buf_size];
            int len;
            while (-1 != (len = in.read(buffer, 0, buf_size))) {
                bos.write(buffer, 0, len);
            }
            return bos.toByteArray();
        } catch (IOException e) {
            e.printStackTrace();
            return null;
        } finally {
            try {
                in.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
            try {
                bos.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

    /* 把一个Map写入文件中 */
    public static <K, V> void writeMapToFile(String fileName, Map<K, V> map) {
        File f = new File(fileName);
        try {
            FileWriter fw = new FileWriter(f);
            for (Map.Entry<K, V> entry : map.entrySet())
                fw.write(entry.getKey().toString() + ":" + entry.getValue().toString() + "\n");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}
public class DigestUtil {
    /**
     * 计算字符串MD5值
     *
     * @param str 需要计算的字符串
     * @return String
     */
    public static String getMd5(String str) {
        try {
            return getMd5(str.getBytes("UTF-8"));
        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }
        return null;
    }

    public static String getMd5(byte[] bytes) {
        try {
            byte[] hash = MessageDigest.getInstance("MD5").digest(bytes);
            StringBuilder hex = new StringBuilder(hash.length * 2);
            for (byte b : hash) {
                if ((b & 0xFF) < 0x10)
                    hex.append("0");
                hex.append(Integer.toHexString(b & 0xFF));
            }
            return hex.toString();
        } catch (Exception e) {
            e.printStackTrace();
        }
        return null;
    }
}

这只是完成了第一步生成摘要,有些地方仍然需要优化,比如怎么最大限度喂饱每一个线程的问题,比如当文件读取遇到IO瓶颈,CPU利用率一直比较低的问题,甚至过程打断的处理等等,并且还需要完成查重同步的部分~

有不妥的地方,欢迎指正,一起进步~

迁移自CSDN
2016年05月31日 00:15:15
http://blog.csdn.net/u013262051/article/details/51541627

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容