蓄水池抽样算法

问题描述:

“给出一个数据流,这个数据流的长度很大或者未知。并且对该数据流中数据只能访问一次。请写出一个随机选择算法,使得数据流中所有数据被选中的概率相等。”

通过数学归纳法进行分析,找出规律:

  • 数据流只有一个数据。接收一个数据,发现数据流结束了,直接返回该数据,其概率为1。

  • 数据流中有两个数据。接收第一个数据,此时不能立即返回数据,因为流还没有结束。继续读取第二个数据,发现数据流结束了。我们生成一个随机整数(各个整数概率相等),取值范围在[0,1],如果=0就返回第一个数据,如果=1就返回第二个元素。

  • 数据流中有三个数据,假定为1、2、3。和上边一样,我们会陆续接收到1、2,此时我们只能保留一个数据,我们以二分之一的概率进行取舍。假如我们淘汰了2。继续读取数据流得到3,发现数据流结束了。此时返回3的概率应该为1/3时,才能保证选择的正确性。也就是说,此时我们手中有两个数据1、3,通过一次随机选择,以1/3的概率留下3,以2/3的概率留下数据1。那么数据1最终被留下的概率是:

  • 数据1被留下:(1/2)*(2/3)= 1/3
  • 数据2被留下:(1/2)*(2/3)= 1/3
  • 数据3被留下:1/3

这个方法满足题目要求,所有数据被留下返回的概率一样。

因此,我们做一下推论:假设当前正在读取第n个数据,则我们以1/n的概率留下该数据,否则留下前n-1个数据中的一个。以这种方法选择,所有数据流中的数据被选择的概率一样。简短证明:假设n-1时候成立,即前n-1个数据被放回的概率都是1/n-1,当前正在读取的第n个数据,以1/n的概率返回它。那么前n-1个数据中数据被返回的概率为:(1/n-1)*(n-1)/n=1/n,假设成立。

以上最终选择的数据个数为1,这个可以改为k,其中k <= n。

  • Java代码实现:
import javax.validation.constraints.NotNull;
import java.util.Random;
import java.util.stream.IntStream;

public class ReservoirSampling {

    // default k = 1;
    int k;

    // pick result
    Object result[];

    // random
    Random r;

    public ReservoirSampling() {
        k = 1;
        result = new Object[k];
        r = new Random();
    }

    public ReservoirSampling(int k) {
        this.k = k;
        result = new Object[k];
        r = new Random();
    }

    public void pick(@NotNull Object[] data) {
        if (k > data.length) {
            result = data;
        }
        for (int i = 0; i < k; i++) {
            result[i] = data[i];
        }
        for (int i = k; i < data.length; i++) {
            int t = r.nextInt(i + 1);
            // picked
            if (t <= k - 1) {
                int j = r.nextInt(k);
                result[j] = data[i];
            }
        }
    }

    public String show() {
        StringBuilder sb = new StringBuilder("");
        for(Object o : result) {
            sb.append(o + " ");
        }
        String ts = sb.toString().trim();
        //System.out.println(ts);
        return ts;
    }

    public static void main(String[] args) {
        ReservoirSampling rs = new ReservoirSampling(3);
        int MAX = Integer.MAX_VALUE;

        Object[] data = new Object[]{1,2,3,4,5,6,7,8,9,10};
        int[] ratio = new int[data.length];
        IntStream.range(0, MAX).forEach(i -> {
            rs.pick(data);
            String[] indexs = rs.show().split(" ");
            for (int k = 0; k < indexs.length; k++) {
                int index = Integer.valueOf(indexs[k]);
                ratio[index - 1]++;
            }
        });
        for (int i = 0; i < ratio.length; i++) {
            System.out.println("picked " + data[i] + ", ratio=" + new Double(1.0 * ratio[i] / MAX));
        }
    }

}

输出结果:

picked 1, ratio=0.29998814188874706
picked 2, ratio=0.3000000958796591
picked 3, ratio=0.30000969828106916
picked 4, ratio=0.3000079115387089
picked 5, ratio=0.30000100159086335
picked 6, ratio=0.3000035445671545
picked 7, ratio=0.29999905140139116
picked 8, ratio=0.29999870355240943
picked 9, ratio=0.3000037606339919
picked 10, ratio=0.2999880906660054
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,470评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,393评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,577评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,176评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,189评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,155评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,041评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,903评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,319评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,539评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,703评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,417评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,013评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,664评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,818评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,711评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,601评论 2 353

推荐阅读更多精彩内容