你能告诉我这些值是什么意思:样本噪声和采样偏差?这是书中的完整段落:
使用代表您希望概括的示例的训练集至关重要。实现这个目标往往比看起来要困难得多:如果样本太小,那么就会得到采样噪声(sampling noise),即 不具代表性的数据是偶然的结果,但如果抽样方法有误,即使是非常大的样本也可能不具代表性。这称为抽样偏差。
看完后,问题来了:“如果样本太小”/“大样本”是什么意思?抽样方法”;
你能告诉我这些值是什么意思:样本噪声和采样偏差?这是书中的完整段落:
使用代表您希望概括的示例的训练集至关重要。实现这个目标往往比看起来要困难得多:如果样本太小,那么就会得到采样噪声(sampling noise),即 不具代表性的数据是偶然的结果,但如果抽样方法有误,即使是非常大的样本也可能不具代表性。这称为抽样偏差。
看完后,问题来了:“如果样本太小”/“大样本”是什么意思?抽样方法”;
是的,有翻译问题。
Sample它既是一个样本,也是一个样本。在这种情况下,当然有必要翻译为样本。那些。意味着样本太小和样本足够大。有缺陷的抽样方法——这显然是指不能保证其代表性的抽样方法。例如,以某种方式对数据进行了预排序,并从连续样本的开头抽取样本作为样本。因此,样本不具有代表性。同样以女性和男性为例,女性问卷50份,男性问卷50份,依次抽取30份问卷作为样本,从第一个开始。样本仅包括女性问卷。嗯,这是最简单的例子,但是有很多选择。这就是抽样偏差(样本量足够,但样本有偏差,不具有代表性)。
还有样本的噪音 - 让它再次成为不同年龄的女性和男性。我们抽取了 10 份问卷作为样本。样本中有女性和男性是偶然的,但年龄问题是样本中只有小女孩和年长的男性。鉴于在一般人群中存在所有年龄段。所以事实证明,我们有一个嘈杂的样本——它不是很片面的,就像样本中只有一种性别的情况一样,但也不是很具有代表性。如果您采取更大的样本并确保它足够随机(混合问卷),那么样本将具有相当的代表性。
这是一个糟糕的翻译。训练样本必须具有代表性 D..b. 不同类别的样本。“样本太小”=“样本太少”。“大样本”=“大量样本(示例)”。什么是“有缺陷的抽样方法”-您需要知道来源-您甚至找不到这样的术语。但是在样本制作不佳的情况下,大量示例通常不具有代表性(例如,样本中只包括男性,但女性也来了)。