我正在使用 Jeff Alstott 的 Python powerlaw 包来尝试使我的数据符合幂律。 Jeff 的软件包基于 Clauset 等人讨论幂律的论文。
首先,我的数据的一些详细信息:
- 它是离散的(字数数据);
- 它严重向左倾斜(高偏度)
- It is 尖峰(超额峰度大于10)
到目前为止我做了什么
df_data 是我的 Dataframe,其中 word_count 是一个包含大约 1000 个单词标记的单词计数数据的系列。
首先我生成了一个fit object:
fit = powerlaw.Fit(data=df_data.word_count, discrete=True)
接下来,我将数据的幂律分布与其他分布进行比较 - 即,对数正态, 指数, 对数正态_正态, 拉伸指数 and 截断的幂律,使用 fit.distribution_compare(distribution_one, distribution_two) 方法。
作为 distribution_compare 方法的结果,我为每个比较获得了以下 (r,p) 元组:
- fit.distribution_compare('power_law', '对数正态') = (0.35617607052907196, 0.5346696007)
- fit.distribution_compare('power_law', '指数') = (397.3832646921206, 5.3999952097178692e-06)
- fit.distribution_compare('power_law', 'lognormal_positive') = (27.82736434863289, 4.2257378698322223e-07)
- fit.distribution_compare('power_law', 'stretched_exponential') = (1.37624682020371, 0.2974292837452046)
- fit.distribution_compare('power_law', 'truncated_power_law') =(-0.0038373682383605, 0.83159372694621)
来自幂律文档:
R:浮动
两组似然值的对数似然比。如果呈阳性,
第一组可能性更有可能(因此概率
产生它们的分布更适合数据)。如果
负数,则反之亦然。
p:浮点数
R 符号的意义。如果低于临界值
(通常为 0.05)R 的符号被认为是重要的。如果高于
临界值 R 的符号被认为是由于统计
波动。
从幂律分布、指数分布和对数正态分布之间的比较结果来看,我倾向于说我有幂律分布。
这是对测试结果的正确解释/假设吗?或者也许我错过了一些东西?
首先,虽然这些方法可能是由我、Cosma Shalizi 和 Mark Newman 开发的,但我们的实现是在 Matlab 和 R 中进行的。我认为您使用的 python 实现可能来自 Jeff Alstott 或 Javier del Molino Matamala 或 Joel奥恩斯坦(所有这些都可以在我的网站上找到 http://tuvalu.santafe.edu/~aaronc/powerlaws/).
现在,关于结果。似然比检验 (LRT) 不允许您得出是否存在幂律分布的结论。它只是一个模型比较工具,这意味着它会评估幂律是否比其他替代方案更适合您的数据。 (我这样说是因为 LRT 不是拟合优度方法。)因此,即使幂律分布是favored在所有替代方案中,这并不意味着您的数据are幂律分布。这仅意味着幂律模型是不那么可怕数据的统计模型比替代方案更重要。
要评估幂律分布本身是否是统计上合理的模型,您应该计算p-使用半参数引导程序拟合的幂律模型的值我们在论文中描述 https://arxiv.org/abs/0706.1062. If p>0.1, and幂律模型优于 LRT 的替代模型,那么您可以根据幂律分布得出对数据的相对较强的支持。
回到您的具体结果:您的每次轻轨比较都会产生一对(r,p), where r是归一化对数似然比,p是该比率的统计显着性。正在测试的东西p- 这里的值是是否sign of r是有意义的。如果p对于 LRT,正号表示幂律模型受到青睐。查看您的结果,我发现指数和对数正态替代方案比幂律模型更适合数据。然而,对数正态、拉伸指数和截断幂律则不然,这意味着这些替代方案与幂律模型一样不适合数据。
如果没有p-来自幂律模型本身的假设检验的值,LRT 结果不能完全解释。但即使是部分解释也与幂律模式的强有力证据不一致,因为对于这些数据来说,两个非幂律模型与幂律模型一样好(坏)。考虑到数据的右偏程度,指数模型确实比幂律更糟糕这一事实并不奇怪,因此没有什么值得大书特书的。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)