• 检索k我们使用一种称为水库采样的技术从不确定大小的数组中获取随机数 有人可以用示例代码简要介绍一下它是如何发生的吗 我实际上没有意识到这个有一个名字 所以我从头开始证明并实现了这个 def random subset iterator K
  • 我非常熟悉使用储层采样在一次数据传递中从一组未确定的长度中进行采样 在我看来 这种方法的一个限制是 在返回任何结果之前 它仍然需要遍历整个数据集 从概念上讲 这是有道理的 因为必须允许整个序列中的项目有机会替换先前遇到的项目以获得统一的样本