学会了BitMap的原理,所以我们一定要来好好折腾一下自己,没有环境也要创造环境搞事情
一、准备数据
首先,用世界上最*的语言创建一个大文件
<?php
set_time_limit(0);
$max = pow(2, 32) - 1;
$count = 你喜欢多少就多少;
while ($count > 0) {
$arr = array();
for ($i = 0; $i < 10000; ++$i) {
$arr[] = mt_rand(0, $max);
}
$content = $count > 10000 ? implode(PHP_EOL, $arr) . PHP_EOL : implode(PHP_EOL, $arr);
file_put_contents('./smalldata.txt', $content, FILE_APPEND);
$count -= 10000;
unset($arr);
}
// 别人高大上的大数据,我们这种民间作坊就叫小数据
生成了一个5g多的文件,我忘了当时写了多少个数据,大概5E左右个自然数吧。
二、思路以及方案
A、
既然是一行一个数字,那就要一行一行的读取文件(应该有一次读取多行的方法,不过我暂时没找到),然后set bit。空间确定限制在512MB+了,时间复杂度也是O(n)没跑了,但是一行一行的读取也确实比较慢,那么就用多线程减少一下时间好了。(实现多线程有几个方法,我这里用到了实现runnable接口这一种)
B、
首先给多个线程划分好读取文件的区域,第n行 ~ 第n + m行,这样就需要可以任意读取文件某一个位置的工具,这里用到了RandomAccessFile,先把文件大小除以线程个数确定大概范围,然后递归一个一个byte的地读,递归出口是读取到换行符或者到文件结尾。
思路和方案大概就是这样,代码在我的gayhub上面,拉到最下面就是地址。
C、
其实靠上面两条就可以做出来了,不过这的要这样子做的话,效率会非常低,因为性能瓶颈都在IO流上,查了网上优化文件读取的方式,是用MappedByteBuffer。(我开始用了RandomAccessFile,后面查了发现它是一个一个byte的读,慢到爆炸)
D、
最后我开了4个线程去排序,花了差不多700s的时间
这是我用了差不多两个月的空余时间才做出来的,性能上一定还有很多优化的空间的,应该主要还是在IO流这块,不过我所以暂时不去优化它了,
代码的gayhub地址:https://github.com/PHPerKael/BitMap/
看完我的小数据,再看看别人家真正的大数据处理:
2016年11月10日,具有计算奥运会之称的Sort Benchmark全球排序竞赛公布2016年最终成绩,腾讯云大数据联合团队用时不到99秒(98.8秒)就完成100TB的数据排序,打破了去年329秒的纪录。在更早前,百度创造的纪录是716秒,Hadoop的纪录是4222秒。