幂律与其他分布的比较

2024-01-08

我正在使用 Jeff Alstott 的 Python powerlaw 包来尝试使我的数据符合幂律。 Jeff 的软件包基于 Clauset 等人讨论幂律的论文。

首先,我的数据的一些详细信息:

  1. 它是离散的(字数数据);
  2. 它严重向左倾斜(高偏度)
  3. It is 尖峰(超额峰度大于10)

到目前为止我做了什么

df_data 是我的 Dataframe,其中 word_count 是一个包含大约 1000 个单词标记的单词计数数据的系列。

首先我生成了一个fit object:

fit = powerlaw.Fit(data=df_data.word_count, discrete=True)

接下来,我将数据的幂律分布与其他分布进行比较 - 即,对数正态, 指数, 对数正态_正态, 拉伸指数 and 截断的幂律,使用 fit.distribution_compare(distribution_one, distribution_two) 方法。

作为 distribution_compare 方法的结果,我为每个比较获得了以下 (r,p) 元组:

  • fit.distribution_compare('power_law', '对数正态') = (0.35617607052907196, 0.5346696007)
  • fit.distribution_compare('power_law', '指数') = (397.3832646921206, 5.3999952097178692e-06)
  • fit.distribution_compare('power_law', 'lognormal_positive') = (27.82736434863289, 4.2257378698322223e-07)
  • fit.distribution_compare('power_law', 'stretched_exponential') = (1.37624682020371, 0.2974292837452046)
  • fit.distribution_compare('power_law', 'truncated_power_law') =(-0.0038373682383605, 0.83159372694621)

来自幂律文档:

R:浮动

两组似然值的对数似然比。如果呈阳性, 第一组可能性更有可能(因此概率 产生它们的分布更适合数据)。如果 负数,则反之亦然。

p:浮点数

R 符号的意义。如果低于临界值 (通常为 0.05)R 的符号被认为是重要的。如果高于 临界值 R 的符号被认为是由于统计 波动。

从幂律分布、指数分布和对数正态分布之间的比较结果来看,我倾向于说我有幂律分布。

这是对测试结果的正确解释/假设吗?或者也许我错过了一些东西?


首先,虽然这些方法可能是由我、Cosma Shalizi 和 Mark Newman 开发的,但我们的实现是在 Matlab 和 R 中进行的。我认为您使用的 python 实现可能来自 Jeff Alstott 或 Javier del Molino Matamala 或 Joel奥恩斯坦(所有这些都可以在我的网站上找到 http://tuvalu.santafe.edu/~aaronc/powerlaws/).

现在,关于结果。似然比检验 (LRT) 不允许您得出是否存在幂律分布的结论。它只是一个模型比较工具,这意味着它会评估幂律是否比其他替代方案更适合您的数据。 (我这样说是因为 LRT 不是拟合优度方法。)因此,即使幂律分布是favored在所有替代方案中,这并不意味着您的数据are幂律分布。这仅意味着幂律模型是不那么可怕数据的统计模型比替代方案更重要。

要评估幂律分布本身是否是统计上合理的模型,您应该计算p-使用半参数引导程序拟合的幂律模型的值我们在论文中描述 https://arxiv.org/abs/0706.1062. If p>0.1, and幂律模型优于 LRT 的替代模型,那么您可以根据幂律分布得出对数据的相对较强的支持。

回到您的具体结果:您的每次轻轨比较都会产生一对(r,p), where r是归一化对数似然比,p是该比率的统计显着性。正在测试的东西p- 这里的值是是否sign of r是有意义的。如果p对于 LRT,正号表示幂律模型受到青睐。查看您的结果,我发现指数和对数正态替代方案比幂律模型更适合数据。然而,对数正态、拉伸指数和截断幂律则不然,这意味着这些替代方案与幂律模型一样不适合数据。

如果没有p-来自幂律模型本身的假设检验的值,LRT 结果不能完全解释。但即使是部分解释也与幂律模式的强有力证据不一致,因为对于这些数据来说,两个非幂律模型与幂律模型一样好(坏)。考虑到数据的右偏程度,指数模型确实比幂律更糟糕这一事实并不奇怪,因此没有什么值得大书特书的。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

幂律与其他分布的比较 的相关文章

随机推荐

  • 哪个更好? Qt Creator 或 Visual Studio IDE [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 我目前在我的 Qt 应用程序中使用 Qt Creator 1 3 我知道它使用jom for make当我们拥有多核处理器时 这一步会更好 但除
  • Twig 标签包含与函数包含

    Twig 的文档标签包括 http twig symfony com doc tags include html看起来非常相似功能包括 http twig symfony com doc functions include html 标签包
  • 如何从java中的JSON文件中删除键值对

    我想知道是否有人可以帮助我或提示我如何用 Java 编辑附加的虚拟 JSON 文件 正如您所看到的 我有一个头对象 其中包含许多遵循相同模式的值和子对象 我想知道是否有办法删除所有值为 1的键 以下是我根据许多网站使用的尝试jackson
  • 根据javascript中的文本行数更改文本区域的高度[重复]

    这个问题在这里已经有答案了 可能的重复 使用原型自动调整文本区域大小 https stackoverflow com questions 7477 autosizing textarea using prototype 如何根据用户放入文本
  • JWT 不记名令牌流程

    我想要的是 ASP NET Core 中 JWT 生成和 JWT 消耗的方法 没有 OAuth2 流程 我确实有 IdentityServerv3 与 OAuth2 配合使用 但当我拥有双方时 对于访问 API 的单个应用程序来说 这有点过
  • Slick Slider slickGoTo 方法打破轮播

    我正在开发一个新闻文章页面 该页面也有一个图像库 我在用着光滑的滑块 http kenwheeler github io slick 用于画廊上的缩略图 图库中的每张图片都有自己的网址 用于广告查看目的 不太好 但我对此无能为力 例如 ou
  • 如何在flutter中定义自定义文本主题?

    如何制作自己的文字主题风格 我只找到这样的默认文本主题 但这还不够 textTheme TextTheme body1 TextStyle body2 TextStyle button TextStyle caption TextStyle
  • Python字典和集合内存分配

    I found 这个优秀的资源 https www safaribooksonline com library view high performance python 9781449361747 ch04 html讨论 python 字典
  • 如何在 Cypress 中存储图像的 src 并将其与另一个图像进行比较?

    测试目标是确认如果用户上传新图像 则上传图像的 src 属性会发生更改 这意味着图像已更改 我尝试使用几种方法 概述如下 第一种方法 cy get img then img gt store the src const source img
  • Chrome 会混淆使用 SVG 格式的网络字体设计的文本(有时)

    Demo http jsbin com onixik 2 http jsbin com onixik 2 内容如下 如果您在 Windows 上的 Chrome 中检查该演示 它可能看起来不错 也可能不太好 我所说的 OK 是指它并不引人注
  • 更改 tkinter 中的输入框背景颜色

    所以我一直在研究这个程序 但我发现很难找出问题所在 我对 tkinter 还很陌生 所以这可能很小 我试图让程序在按下复选按钮时更改输入框的背景颜色 或者更好的是 如果我可以动态地改变它 那就更好了 这是我目前的代码 TodayReadin
  • 在Java中无损JPEG旋转(90/180/270度)?

    是否有一个 Java 库可以以 90 度的增量旋转 JPEG 文件 而不会导致图像质量下降 我找到了这个 http mediachest sourceforge net mediautil http mediachest sourcefor
  • 使用 Azure 管道在特定的自托管服务器上运行

    在 Azure git 中 我正在运行一些自托管代理 它们位于名为 默认 的池中 在 Azure 管道 yml 文件 中 我可以告诉作业它必须在特定代理中运行 如下所示 pool name Default demands Agent Nam
  • 假装电报机器人正在打字?

    如何让机器人假装正在输入消息 当机器人假装打字时 聊天中会出现以下文本 我用的是蟒蛇aiogram https github com aiogram aiogram框架 但对原生 Telegram API 的建议也会有所帮助 我认真建议使用
  • MySQL CSV 导入 - 如果时间戳有毫秒,则日期输入为 0000-00-00 00:00:00?

    我目前有大量 CSV 需要导入到 MySQL 数据库中 这些文件包含每条记录的时间戳 其格式如下 例如 2011 10 13 09 36 02 297000000 我知道 MySQL 错误 8523 它表明不支持在日期时间字段中存储毫秒 尽
  • 如何强制 GCC 假定浮点表达式为非负?

    在某些情况下 您知道某个浮点表达式始终为非负数 例如 当计算向量的长度时 sqrt a 0 a 0 a N 1 a N 1 NB I am意识到std hypot 这与问题无关 并且平方根下的表达式显然是非负的 然而 海湾合作委员会outp
  • NHibernate WinForms 应用程序使用哪个缓存

    我有一个带有数据库后端 oracle 的 C WinForms 应用程序 并使用 NHibernate 进行 O R 映射 我想尽可能减少与数据库的通信 因为这里的网络非常慢 所以我阅读了有关二级缓存的内容 我发现这个很好的介绍 http
  • ELB 和 ECS 集群前面的 Amazon API Gateway

    我尝试将 Amazon API Gateway 放在应用程序负载均衡器前面 该负载均衡器可以平衡到我的 ECS 集群的流量 我的所有微服务都部署在该集群上 使用 API 网关的动机是通过 lambda 函数使用自定义授权方 系统图 用亚马逊
  • Asp.Net Core 1.1 在密钥环中找不到密钥

    VS 2017 中的默认项目 https i stack imgur com Y12YS jpg我在 vs 2017 社区中创建了一个新的 Asp net Core Web 应用程序并将其发布到 FTP 托管上 但是当我提交表单 登录或用户
  • 幂律与其他分布的比较

    我正在使用 Jeff Alstott 的 Python powerlaw 包来尝试使我的数据符合幂律 Jeff 的软件包基于 Clauset 等人讨论幂律的论文 首先 我的数据的一些详细信息 它是离散的 字数数据 它严重向左倾斜 高偏度 I