这是关于 Python 中的 Bootstrap 采样的教程。在本教程中,我们将了解什么是引导,然后了解如何实现它。
让我们开始吧。
引导抽样的定义如下:
在统计学中,引导抽样是一种方法,涉及从数据源中重复抽取样本数据并进行替换,以估计总体参数。
这基本上意味着引导抽样是一种技术,您可以使用它来估计整个总体的平均值等参数,而无需明确考虑总体中的每个数据点。
我们不是着眼于整个总体,而是着眼于从总体中提取的多个相同大小的子集。
例如,如果您的人口规模是1000.然后找到平均值,而不是考虑所有 1000 个条目50 个样品,每个尺寸 4并计算每个样本的平均值。这样你就可以平均得到200 个条目(50X4) 随机选择。
市场研究人员使用类似的策略对大量人群进行研究。
现在让我们看看如何在Python中实现引导采样。
我们将生成一些具有预定平均值的随机数据。为此,我们将使用Python 中的 NumPy 模块.
让我们从导入必要的模块开始。
我们需要的模块是:
要导入这些模块,请使用:
import numpy as np
import random
在下一步中,我们需要生成一些随机数据。让我们使用 Numpy 模块来做到这一点。
让我们生成一个平均值为的正态分布300与1000条目。
其代码如下:
x = np.random.normal(loc= 300.0, size=1000)
我们可以使用以下方法计算该数据的平均值:
Output :
请注意,这是总体的实际平均值。
让我们创建 50 个样本,每个样本大小为 4 来估计平均值。
这样做的代码是:
sample_mean = []
for i in range(50):
y = random.sample(x.tolist(), 4)
avg = np.mean(y)
sample_mean.append(avg)
列表样本平均值将包含所有 50 个样本的平均值。为了估计总体的平均值,我们需要计算样本平均值.
您可以使用以下方法来做到这一点:
print(np.mean(sample_mean))
Output :
现在,如果我们再次运行本节中的代码,我们将得到不同的输出。这是因为每次运行代码时,我们都会生成新的样本。然而,每次输出都会接近实际平均值 (300)。
再次运行本节中的代码,我们得到以下输出:
再次运行,我们得到:
这是本教程的完整代码:
import numpy as np
import random
x = np.random.normal(loc= 300.0, size=1000)
print(np.mean(x))
sample_mean = []
for i in range(50):
y = random.sample(x.tolist(), 4)
avg = np.mean(y)
sample_mean.append(avg)
print(np.mean(sample_mean))
本教程是关于 Python 中的 Bootstrap 采样。我们学习了如何通过创建较小的样本来估计总体的平均值。这在机器学习领域非常有用,可以避免过度拟合。希望您和我们一起学习愉快!
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)