如果理解正确,当计算随机森林估计量时,通常会应用引导法,这意味着仅使用来自样本(i)的数据构建树(i),并通过替换选择。我想知道sklearn的样本大小是多少随机森林回归器 http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html uses.
我唯一看到的是接近的:
bootstrap : boolean, optional (default=True)
Whether bootstrap samples are used when building trees.
但没有办法指定样本量的大小或比例,也没有告诉我默认的样本量。
我觉得应该有办法至少知道默认样本大小是多少,我错过了什么?
呃,我同意你的观点,很奇怪的是我们无法指定子样本/引导程序大小RandomForestRegressor
算法。也许一个潜在的解决方法是使用BaggingRegressor
反而。http://scikit-learn.org/stable/modules/ generated/sklearn.ensemble.BaggingRegressor.html#sklearn.ensemble.BaggingRegressor http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingRegressor.html#sklearn.ensemble.BaggingRegressor
RandomForestRegressor
只是一个特例BaggingRegressor
(使用引导程序来减少一组低偏差高方差估计量的方差)。在RandomForestRegressor
,基本估计量被迫为DeceisionTree
,而在BaggingRegressor
,您可以自由选择base_estimator
。更重要的是,您可以设置自定义的子样本大小,例如max_samples=0.5
将抽取大小等于整个训练集一半的随机子样本。此外,您可以通过设置仅选择功能的子集max_features
and bootstrap_features
.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)