幂律与其他分布的比较

2024-01-08

我正在使用 Jeff Alstott 的 Python powerlaw 包来尝试使我的数据符合幂律。 Jeff 的软件包基于 Clauset 等人讨论幂律的论文。

首先，我的数据的一些详细信息：

它是离散的（字数数据）；
它严重向左倾斜（高偏度）
It is 尖峰（超额峰度大于10）

到目前为止我做了什么

df_data 是我的 Dataframe，其中 word_count 是一个包含大约 1000 个单词标记的单词计数数据的系列。

首先我生成了一个fit object:

fit = powerlaw.Fit(data=df_data.word_count, discrete=True)

接下来，我将数据的幂律分布与其他分布进行比较 - 即，对数正态, 指数, 对数正态_正态, 拉伸指数 and 截断的幂律，使用 fit.distribution_compare(distribution_one, distribution_two) 方法。

作为 distribution_compare 方法的结果，我为每个比较获得了以下 (r,p) 元组：

fit.distribution_compare('power_law', '对数正态') = (0.35617607052907196, 0.5346696007)
fit.distribution_compare('power_law', '指数') = (397.3832646921206, 5.3999952097178692e-06)
fit.distribution_compare('power_law', 'lognormal_positive') = (27.82736434863289, 4.2257378698322223e-07)
fit.distribution_compare('power_law', 'stretched_exponential') = (1.37624682020371, 0.2974292837452046)
fit.distribution_compare('power_law', 'truncated_power_law') =(-0.0038373682383605, 0.83159372694621)

来自幂律文档：

R：浮动

两组似然值的对数似然比。如果呈阳性，第一组可能性更有可能（因此概率产生它们的分布更适合数据）。如果负数，则反之亦然。

p：浮点数

R 符号的意义。如果低于临界值（通常为 0.05）R 的符号被认为是重要的。如果高于临界值 R 的符号被认为是由于统计波动。

从幂律分布、指数分布和对数正态分布之间的比较结果来看，我倾向于说我有幂律分布。

这是对测试结果的正确解释/假设吗？或者也许我错过了一些东西？

首先，虽然这些方法可能是由我、Cosma Shalizi 和 Mark Newman 开发的，但我们的实现是在 Matlab 和 R 中进行的。我认为您使用的 python 实现可能来自 Jeff Alstott 或 Javier del Molino Matamala 或 Joel奥恩斯坦（所有这些都可以在我的网站上找到 http://tuvalu.santafe.edu/~aaronc/powerlaws/).

现在，关于结果。似然比检验 (LRT) 不允许您得出是否存在幂律分布的结论。它只是一个模型比较工具，这意味着它会评估幂律是否比其他替代方案更适合您的数据。（我这样说是因为 LRT 不是拟合优度方法。）因此，即使幂律分布是favored在所有替代方案中，这并不意味着您的数据are幂律分布。这仅意味着幂律模型是不那么可怕数据的统计模型比替代方案更重要。

要评估幂律分布本身是否是统计上合理的模型，您应该计算p-使用半参数引导程序拟合的幂律模型的值我们在论文中描述 https://arxiv.org/abs/0706.1062. If p>0.1, and幂律模型优于 LRT 的替代模型，那么您可以根据幂律分布得出对数据的相对较强的支持。

回到您的具体结果：您的每次轻轨比较都会产生一对(r,p), where r是归一化对数似然比，p是该比率的统计显着性。正在测试的东西p- 这里的值是是否sign of r是有意义的。如果p对于 LRT，正号表示幂律模型受到青睐。查看您的结果，我发现指数和对数正态替代方案比幂律模型更适合数据。然而，对数正态、拉伸指数和截断幂律则不然，这意味着这些替代方案与幂律模型一样不适合数据。

如果没有p-来自幂律模型本身的假设检验的值，LRT 结果不能完全解释。但即使是部分解释也与幂律模式的强有力证据不一致，因为对于这些数据来说，两个非幂律模型与幂律模型一样好（坏）。考虑到数据的右偏程度，指数模型确实比幂律更糟糕这一事实并不奇怪，因此没有什么值得大书特书的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

powerlaw

幂律与其他分布的比较的相关文章

Python：在列表理解本身中引用列表理解？

这个想法刚刚出现在我的脑海中假设您出于某种原因想要通过 Python 中的列表理解来获取列表的唯一元素 i if i in created comprehension else 0 for i in 1 2 1 2 3 1 2 0 0 3
使用 pythonbrew 编译 Python 3.2 和 2.7 时出现问题

我正在尝试使用构建多个版本的 python蟒蛇酿造 http pypi python org pypi pythonbrew 0 7 3 但我遇到了一些测试失败这是在运行的虚拟机上 Ubuntu 8 04 32 位当我使用时会发生这种情
通过 Scrapy 抓取 Google Analytics

我一直在尝试使用 Scrapy 从 Google Analytics 获取一些数据尽管我是一个完全的 Python 新手但我已经取得了一些进展我现在可以通过 Scrapy 登录 Google Analytics 但我需要发出 AJAX
Python 中的 Lanczos 插值与 2D 图像

我尝试重新缩放 2D 图像灰度图像大小为 256x256 所需输出为 224x224 像素值范围从 0 到 1300 我尝试了两种使用 Lanczos 插值来重新调整它们的方法首先使用PIL图像 import numpy as np
将 saxon 与 python 结合使用

我需要使用 python 处理 XSLT 目前我正在使用仅支持 XSLT 1 的 lxml 现在我需要处理 XSLT 2 有没有办法将 saxon XSLT 处理器与 python 一起使用有两种可能的方法设置一个 HTTP 服务接受
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
如何在 Python 中检索 for 循环中的剩余项目？

我有一个简单的 for 循环迭代项目列表在某些时候我知道它会破裂我该如何退回剩余的物品 for i in a b c d e f g try some func i except return remaining items if s
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
在 Qt 中自动调整标签文本大小 - 奇怪的行为

在 Qt 中我有一个复合小部件它由排列在 QBoxLayouts 内的多个 QLabels 组成当小部件调整大小时我希望标签文本缩放以填充标签区域并且我已经在 resizeEvent 中实现了文本大小的调整这可行但似乎发生了某
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我

随机推荐

哪个更好？ Qt Creator 或 Visual Studio IDE [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我目前在我的 Qt 应用程序中使用 Qt Creator 1 3 我知道它使用jom for make当我们拥有多核处理器时这一步会更好但除
Twig 标签包含与函数包含

Twig 的文档标签包括 http twig symfony com doc tags include html看起来非常相似功能包括 http twig symfony com doc functions include html 标签包
如何从java中的JSON文件中删除键值对

我想知道是否有人可以帮助我或提示我如何用 Java 编辑附加的虚拟 JSON 文件正如您所看到的我有一个头对象其中包含许多遵循相同模式的值和子对象我想知道是否有办法删除所有值为 1的键以下是我根据许多网站使用的尝试jackson
根据javascript中的文本行数更改文本区域的高度[重复]

这个问题在这里已经有答案了可能的重复使用原型自动调整文本区域大小 https stackoverflow com questions 7477 autosizing textarea using prototype 如何根据用户放入文本
JWT 不记名令牌流程

我想要的是 ASP NET Core 中 JWT 生成和 JWT 消耗的方法没有 OAuth2 流程我确实有 IdentityServerv3 与 OAuth2 配合使用但当我拥有双方时对于访问 API 的单个应用程序来说这有点过
Slick Slider slickGoTo 方法打破轮播

我正在开发一个新闻文章页面该页面也有一个图像库我在用着光滑的滑块 http kenwheeler github io slick 用于画廊上的缩略图图库中的每张图片都有自己的网址用于广告查看目的不太好但我对此无能为力例如 ou
如何在flutter中定义自定义文本主题？

如何制作自己的文字主题风格我只找到这样的默认文本主题但这还不够 textTheme TextTheme body1 TextStyle body2 TextStyle button TextStyle caption TextStyle
Python字典和集合内存分配

I found 这个优秀的资源 https www safaribooksonline com library view high performance python 9781449361747 ch04 html讨论 python 字典
如何在 Cypress 中存储图像的 src 并将其与另一个图像进行比较？

测试目标是确认如果用户上传新图像则上传图像的 src 属性会发生更改这意味着图像已更改我尝试使用几种方法概述如下第一种方法 cy get img then img gt store the src const source img
Chrome 会混淆使用 SVG 格式的网络字体设计的文本（有时）

Demo http jsbin com onixik 2 http jsbin com onixik 2 内容如下如果您在 Windows 上的 Chrome 中检查该演示它可能看起来不错也可能不太好我所说的 OK 是指它并不引人注
更改 tkinter 中的输入框背景颜色

所以我一直在研究这个程序但我发现很难找出问题所在我对 tkinter 还很陌生所以这可能很小我试图让程序在按下复选按钮时更改输入框的背景颜色或者更好的是如果我可以动态地改变它那就更好了这是我目前的代码 TodayReadin
在Java中无损JPEG旋转（90/180/270度）？

是否有一个 Java 库可以以 90 度的增量旋转 JPEG 文件而不会导致图像质量下降我找到了这个 http mediachest sourceforge net mediautil http mediachest sourcefor
使用 Azure 管道在特定的自托管服务器上运行

在 Azure git 中我正在运行一些自托管代理它们位于名为默认的池中在 Azure 管道 yml 文件中我可以告诉作业它必须在特定代理中运行如下所示 pool name Default demands Agent Nam
假装电报机器人正在打字？

如何让机器人假装正在输入消息当机器人假装打字时聊天中会出现以下文本我用的是蟒蛇aiogram https github com aiogram aiogram框架但对原生 Telegram API 的建议也会有所帮助我认真建议使用
MySQL CSV 导入 - 如果时间戳有毫秒，则日期输入为 0000-00-00 00:00:00？

我目前有大量 CSV 需要导入到 MySQL 数据库中这些文件包含每条记录的时间戳其格式如下例如 2011 10 13 09 36 02 297000000 我知道 MySQL 错误 8523 它表明不支持在日期时间字段中存储毫秒尽
如何强制 GCC 假定浮点表达式为非负？

在某些情况下您知道某个浮点表达式始终为非负数例如当计算向量的长度时 sqrt a 0 a 0 a N 1 a N 1 NB I am意识到std hypot 这与问题无关并且平方根下的表达式显然是非负的然而海湾合作委员会outp
NHibernate WinForms 应用程序使用哪个缓存

我有一个带有数据库后端 oracle 的 C WinForms 应用程序并使用 NHibernate 进行 O R 映射我想尽可能减少与数据库的通信因为这里的网络非常慢所以我阅读了有关二级缓存的内容我发现这个很好的介绍 http
ELB 和 ECS 集群前面的 Amazon API Gateway

我尝试将 Amazon API Gateway 放在应用程序负载均衡器前面该负载均衡器可以平衡到我的 ECS 集群的流量我的所有微服务都部署在该集群上使用 API 网关的动机是通过 lambda 函数使用自定义授权方系统图用亚马逊
Asp.Net Core 1.1 在密钥环中找不到密钥

VS 2017 中的默认项目 https i stack imgur com Y12YS jpg我在 vs 2017 社区中创建了一个新的 Asp net Core Web 应用程序并将其发布到 FTP 托管上但是当我提交表单登录或用户
幂律与其他分布的比较

我正在使用 Jeff Alstott 的 Python powerlaw 包来尝试使我的数据符合幂律 Jeff 的软件包基于 Clauset 等人讨论幂律的论文首先我的数据的一些详细信息它是离散的字数数据它严重向左倾斜高偏度 I

幂律与其他分布的比较

幂律与其他分布的比较 的相关文章

随机推荐

热门标签

幂律与其他分布的比较的相关文章