（3）大数据 -- BitMap应用

学会了BitMap的原理，所以我们一定要来好好折腾一下自己，没有环境也要创造环境搞事情

image.png

一、准备数据

首先，用世界上最*的语言创建一个大文件

<?php

    set_time_limit(0);
    $max = pow(2, 32) - 1;
    $count = 你喜欢多少就多少;
    while ($count > 0) {
        $arr = array();
        for ($i = 0; $i < 10000; ++$i) {
            $arr[] = mt_rand(0, $max);
        }
        $content = $count > 10000 ? implode(PHP_EOL, $arr) . PHP_EOL : implode(PHP_EOL, $arr);
        file_put_contents('./smalldata.txt', $content, FILE_APPEND);
        $count -= 10000;
        unset($arr);
    }

// 别人高大上的大数据，我们这种民间作坊就叫小数据

image.png

生成了一个5g多的文件，我忘了当时写了多少个数据，大概5E左右个自然数吧。

image.png

二、思路以及方案

A、

既然是一行一个数字，那就要一行一行的读取文件（应该有一次读取多行的方法，不过我暂时没找到），然后set bit。空间确定限制在512MB+了，时间复杂度也是O(n)没跑了，但是一行一行的读取也确实比较慢，那么就用多线程减少一下时间好了。（实现多线程有几个方法，我这里用到了实现runnable接口这一种）

B、

首先给多个线程划分好读取文件的区域，第n行 ~ 第n + m行，这样就需要可以任意读取文件某一个位置的工具，这里用到了RandomAccessFile，先把文件大小除以线程个数确定大概范围，然后递归一个一个byte的地读，递归出口是读取到换行符或者到文件结尾。

思路和方案大概就是这样，代码在我的gayhub上面，拉到最下面就是地址。

C、

其实靠上面两条就可以做出来了，不过这的要这样子做的话，效率会非常低，因为性能瓶颈都在IO流上，查了网上优化文件读取的方式，是用MappedByteBuffer。（我开始用了RandomAccessFile，后面查了发现它是一个一个byte的读，慢到爆炸）

D、

最后我开了4个线程去排序，花了差不多700s的时间

image.png

这是我用了差不多两个月的空余时间才做出来的，性能上一定还有很多优化的空间的，应该主要还是在IO流这块，不过我所以暂时不去优化它了，

代码的gayhub地址：https://github.com/PHPerKael/BitMap/

看完我的小数据，再看看别人家真正的大数据处理：

2016年11月10日，具有计算奥运会之称的Sort Benchmark全球排序竞赛公布2016年最终成绩，腾讯云大数据联合团队用时不到99秒（98.8秒）就完成100TB的数据排序，打破了去年329秒的纪录。在更早前，百度创造的纪录是716秒，Hadoop的纪录是4222秒。

image.png