RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 941686
Accepted
Roman
Roman
Asked:2020-02-07 02:29:05 +0000 UTC2020-02-07 02:29:05 +0000 UTC 2020-02-07 02:29:05 +0000 UTC

这段代码是如何工作的?(代表性的样本)

  • 772

有一个神奇的代码:

static int samplerSize = 50;
static int[] sampler = new int[50];
static int i;

public static void samplerProces(int value)
{
    if (i < samplerSize)
    {
        sampler[i++]=value;
        return;
    }

    double p = samplerSize/(double)i++;
    if (rand.nextDouble() < p)
    {
        sampler[rand.nextInt(samplerSize)] = value;
    }
}

public static void test()
{
    int[] data = IntStream.range(0, 10000).toArray();
    IntStream.of(data).forEach(e -> {samplerProces(e);});
    System.out.println(IntStream.of(sampler).average());
}

不知何故,平均数接近 5000,这意味着样本有一次机会包含整个数组中的元素。

如何,我无法想象,因为从代码来看,越接近结尾,百分比越低......

java
  • 1 1 个回答
  • 10 Views

1 个回答

  • Voted
  1. Best Answer
    AnT stands with Russia
    2020-02-07T02:39:04Z2020-02-07T02:39:04Z

    这是经典的Reservoir Sampling 算法。在你的情况下,你有 50 个坦克。

    另请参阅
    https://ru.stackoverflow.com/a/760167/182825
    https://ru.stackoverflow.com/a/780834/182825


    考虑一下,例如,对于坦克的情况 1:我们遍历输入数据的序列(事先不知道其长度)并以概率“获取”数据元素1/i,其中i是元素编号(从 1 开始编号)。每当我们决定“采用”一个新元素时,我们都会忘记之前“采用”的那个。

    如您所见,随着我们越来越远,“获取”一个元素的概率越来越小。然而,作为结果,已经到达序列的末尾,我们将有一个等概率选择的元素。这真的没有什么令人惊讶的,即使起初它看起来不直观。

    • 在算法的第一步,我们以概率 1 “取”第一个元素。

    • 在算法的第二步,我们以 1/2 的概率“取”第二个元素。

      结果得到第一个元素的概率等于它在第一步“取”的概率乘以第二步“不取”第二个元素的概率:1 * 1/2 = 1/ 2.

      结果获得第二个元素的概率等于其“取”的概率:1/2。

      如您所见,概率是相等的。

    • 在算法的第三步,我们以 1/3 的概率“取”第三个元素。

      结果得到第一个元素的概率等于它在第一步“接受”的概率乘以第二个步骤“不接受”第二个元素的概率和“不接受”的概率第三步的第三个元素:1 * 1/2 * 2/3 = 1/3。

      结果得到第二个元素的概率等于它在第二步“取”的概率乘以第三步“不取”第三个元素的概率:1/2 * 2/3 = 1/3。

      结果得到第三个元素的概率等于它“取”的概率:1/3。

      如您所见,所有概率再次相等。

    • 在算法的第四步,我们以概率 1/4 取第四个元素。作为每个传递元素的结果获得的概率等于

      1: 1 * 1/2 * 2/3 * 3/4 = 1/4
      2: 1/2 * 2/3 * 3/4 = 1/4
      3: 1/3 * 3/4 = 1/4
      4: 1/4
      

      所有的概率仍然相等。

    等等。在每i第 i 步之后,通过计算得到每个扫描元素的概率,你会发现它们都是相等1/i的。也就是说,在每个步骤中,支持从序列的已通过部分中等概率地选择一个元素。

    Reservoir Sampling 的通用算法只是这种方法对多重采样情况的推广。

    • 3

相关问题

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    根据浏览器窗口的大小调整背景图案的大小

    • 2 个回答
  • Marko Smith

    理解for循环的执行逻辑

    • 1 个回答
  • Marko Smith

    复制动态数组时出错(C++)

    • 1 个回答
  • Marko Smith

    Or and If,elif,else 构造[重复]

    • 1 个回答
  • Marko Smith

    如何构建支持 x64 的 APK

    • 1 个回答
  • Marko Smith

    如何使按钮的输入宽度?

    • 2 个回答
  • Marko Smith

    如何显示对象变量的名称?

    • 3 个回答
  • Marko Smith

    如何循环一个函数?

    • 1 个回答
  • Marko Smith

    LOWORD 宏有什么作用?

    • 2 个回答
  • Marko Smith

    从字符串的开头删除直到并包括一个字符

    • 2 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5