水塘抽样算法的证明

2022-02-25数据结构与算法

水塘抽样算法主要用来解决这样一类问题:可否在一未知大小的集合中,随机取出一元素?[1] 本文简单对水塘抽样算法进行证明。

水塘抽样算法解决的问题可以形式化地定义为:在大小为 NN 的集合 SS 中抽取 kk 个样本,每个样本被抽中的概率都是 kN\frac{k}{N},且 NN 是未知的。在编程中,这样的问题常见于从一个不知道何时结束的流中随机抽取一些元素,典型的题目如 LeetCode 382. Linked List Random Node398. Random Pick Index

算法过程

我们定义一个保留 kk 个元素的区域叫做保留区。我们以流的形式为例,水塘抽样算法的过程如下:

  1. 从流中取得前 kk 个元素,填充保留区;
  2. 对于第 ii 个元素(k<iNk<i\leq N),我们以 ki\frac{k}{i} 的概率将其放入保留区,且放入保留区的位置是随机的。

更清楚地讲,放入保留区的位置是随机的即为从保留区中随机确定一个位置替换原有元素,意味着对于当时保留区中的每个元素,被替换的概率是 1k\frac{1}{k}

证明

按照问题要求,对于流中的每个元素,最终存在于保留区的概率应该为 kN\frac{k}{N}

设第 ii 个元素被放入保留区的概率为 PiP_i,那么其到结束还在保留区中的概率是多少?简单来讲: Pi×(后面的每个元素没被放入保留区的概率+后面每个被放入保留区的元素都没有替换第 i 个元素的概率) P_i\times(后面的每个元素没被放入保留区的概率+后面每个被放入保留区的元素都没有替换第\ i\ 个元素的概率) 我们一个一个来看。

如果 iki\leq k

iki\leq k 时,Pi=1P_i=1。那么对于第 nn 个(i<nNi<n\leq N)元素:

如果 nkn\leq k

  • 没被放入保留区的概率是 10=01-0 = 0,因为一定会被放入;
  • 被放入保留区的概率是 11,因为一定会被放入;
  • 每次有元素被放入保留区,第 ii 个元素没有被替换的概率是 11,因为在此时不会发生替换。

如果 n>kn>k

  • 没被放入保留区的概率是 1kn=nkk1-\frac{k}{n} = \frac{n-k}{k}
  • 被放入保留区的概率是 kn\frac{k}{n}
  • 每次有元素被放入保留区,第 ii 个元素没有被替换的概率是 11k=k1k1-\frac{1}{k} = \frac{k-1}{k}

都写在一起,就得到: Pi×(n=ik(0+1×1)+n=k+1N(nkn+kn×k1k))=n=k+1N(nkn+k1n)=n=k+1N(n1n)=kk+1×k+1k+2××N2N1×N1N=kN \begin{align} &P_i \times \left(\prod_{n=i}^{k}(0+1\times 1) + \prod_{n=k+1}^{N}(\frac{n-k}{n}+\frac{k}{n}\times\frac{k-1}{k})\right) \newline =& \prod_{n=k+1}^{N}(\frac{n-k}{n}+\frac{k-1}{n}) \newline =& \prod_{n=k+1}^{N}(\frac{n-1}{n}) \newline =& \frac{k}{k+1}\times\frac{k+1}{k+2}\times…\times\frac{N-2}{N-1}\times\frac{N-1}{N} \newline =& \frac{k}{N} \newline \end{align} 也就是说,第 ii 个元素到结束还在保留区中的概率为 kN\frac{k}{N},符合要求。

如果 i>ki > k

i>ki>k 时,Pi=kiP_i=\frac{k}{i}。对于第 ii 个元素后面的第 nn 个(i<nNi<n\leq N)元素:

  • 没被放入保留区的概率是 1kn=nkk1-\frac{k}{n} = \frac{n-k}{k}
  • 被放入保留区的概率是 kn\frac{k}{n}
  • 每次有元素被放入保留区,第 ii 个元素没有被替换的概率是 11k=k1k1-\frac{1}{k} = \frac{k-1}{k}

都写在一起,就得到 Pi×n=i+1N(nkn+kn×k1k)=ki×n=i+1N(nkn+k1n)=ki×n=i+1N(n1n)=ki×(ii+1×i+1i+2××N2N1×N1N)=ki×iN=kN \begin{align} &P_i \times \prod_{n=i+1}^{N}(\frac{n-k}{n}+\frac{k}{n}\times\frac{k-1}{k}) \newline =& \frac{k}{i} \times \prod_{n=i+1}^{N}(\frac{n-k}{n}+\frac{k-1}{n}) \newline =& \frac{k}{i} \times \prod_{n=i+1}^{N}(\frac{n-1}{n}) \newline =& \frac{k}{i} \times (\frac{i}{i+1}\times\frac{i+1}{i+2}\times…\times\frac{N-2}{N-1}\times\frac{N-1}{N}) \newline =& \frac{k}{i} \times \frac{i}{N} \newline =& \frac{k}{N} \newline \end{align} 也就是说,第 ii 个元素到结束还在保留区中的概率为 kN\frac{k}{N},符合要求。


综上,水塘抽样算法得证。

参考文献

  1. https://zh.wikipedia.org/wiki/%E6%B0%B4%E5%A1%98%E6%8A%BD%E6%A8%A3