如何绘制许多不均匀分布的 value_counts

2024-01-05

假设我有以下数据：

s2 = pd.Series([1,2,3,4,5,2,3,333,2,123,434,1,2,3,1,11,11,432,3,2,4,3,3,3,54,34,24,2,223,2535334,3,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,30000, 2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2])
s2.value_counts(normalize=True).plot()

我想表明，少数数字构成了大多数情况。问题是这将在图表的最左侧看到，然后所有其他类别都会有一个短条。

在真实数据中，x 轴将进行分类，大约有 18000 个类别，其中 4% 的计数将在 10000 左右，然后其余的将下降并在 50 左右。

更新：参见@unutbu 回答

更新了代码，我收到一个错误qcut当尝试使用元组时。

TypeError: unsupported operand type(s) for -: 'tuple' and 'tuple'

df = pd.DataFrame({'s1':[1,0,1,0], 's2':[1,0,1,1], 's3':[1,0,1,1], 's4':[0,0,0,1]})
perms = df.apply(tuple, axis=1)
prob = perms.value_counts(normalize=True).reset_index(drop='True')
category_classes = pd.qcut(prob, q=[0, .25, 0.95, 1.], 
                 labels=['bottom 25%', 'mid 70%', 'top 5%'])
prob_groups = prob.groupby(category_classes).sum()
prob_groups.plot(kind='bar')
plt.xticks(rotation=0)
plt.show()

您可以将标准化值计数保持在一定值以上threshold。然后将下面的值相加threshold并将它们归为一类，可以称为“其他”。

通过选择threshold足够高，您将能够显示对整体概率分布最重要的贡献者，同时仍然在标记为“其他”的栏中显示尾部的大小：

import matplotlib.pyplot as plt
import pandas as pd

s2 = pd.Series([1,2,3,4,5,2,3,333,2,123,434,1,2,3,1,11,11,432,3,2,4,3,3,3,54,34,24,2,223,2535334,3,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,30000, 2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2])
prob = s2.value_counts(normalize=True)
threshold = 0.02
mask = prob > threshold
tail_prob = prob.loc[~mask].sum()
prob = prob.loc[mask]
prob['other'] = tail_prob
prob.plot(kind='bar', rot=25)
plt.show()

您可以在条形图上合理显示的类别标签数量是有限的。对于正常大小的图表来说，3000 太多了。此外，期望观众从阅读 3000 个标签中收集到任何意义可能是不合理的。

图表应该总结数据。最主要的一点似乎是4%或5%的类别构成了绝大多数案例。所以为了让大家明白这一点，也许可以使用pd.qcut https://pandas.pydata.org/docs/reference/api/pandas.qcut.html将案例分为简单的类别，例如bottom 25%, mid 70%, and top 5%:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

N = 18000
categories = np.arange(N)
np.random.shuffle(categories)
M = int(N*0.04)
prob = pd.Series(np.concatenate([np.random.randint(9000, 11000, size=M),
                      np.random.randint(0, 100, size=N-M), ]), index=categories)
prob /= prob.sum()
category_classes = pd.qcut(prob, q=[0, .25, 0.95, 1.], 
                 labels=['bottom 25%', 'mid 70%', 'top 5%'])
prob_groups = prob.groupby(category_classes).sum()
prob_groups.plot(kind='bar', rot=0)
plt.show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

barchart

如何绘制许多不均匀分布的 value_counts 的相关文章

OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
如何在 Python 中检索 for 循环中的剩余项目？

我有一个简单的 for 循环迭代项目列表在某些时候我知道它会破裂我该如何退回剩余的物品 for i in a b c d e f g try some func i except return remaining items if s
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate

随机推荐

使用 Airflow API 进行 JWT 身份验证

我正在尝试实现基于令牌的身份验证作为触发气流 dag 的一部分有没有办法添加 JWT 身份验证来生成 access token 来触发 API 任何帮助深表感谢我们的身份验证服务返回一个JSON像这样的回应 clientToken 32
如果随机访问不可用，如何高效地获取每对（无序）不同的集合元素

示例我有收藏 1 2 3 4 我想获取所有无序不同元素对它们是 1 2 1 3 1 4 2 3 2 4 3 4 如果我有一个IList 我可以这样做 IList
opengl图像处理性能差

我正在尝试使用 opengl 进行一些简单的图像处理由于我找不到任何好的库可以做到这一点所以我一直在尝试做自己的解决方案我只是想在 GPU 上合成一些图像然后读回它们然而我的实现的性能似乎几乎等于它在 cpu 上执行的操作出了
使用位操作来计算两个数字的平均值？

我找到这段代码 int mid l r l r gt gt 1 这与以下相同mid l r 2 但我不明白为什么有什么帮助吗谢谢不完全一样重点不一样这是mostly相同但没有溢出问题如果输入两个正数结果永远不会是负数事实并
Tkinter - 使用“panedwindow”小部件错误调整大小：

在我的 GUI 中我使用了两个panedwindow每个小部件都有两个内部框架一切都按我的预期进行除了调整大小当我调整框架大小时所有小部件都开始闪烁我真的不喜欢看到它为了更好地理解这个问题我从我的真实程序中取出了一段代码并尽
iOS 6.1 的 willTransitionToState 表现有所不同

我正在子类化我的UITableCell以便将编辑模式中的减号图像和删除图像移动到相反的方向到目前为止效果很好但在 iOS 6 中当我在 tableView 上使用 reloadData 时减号图像会跳到单元格的左侧而不是停留在右侧
如何使用 Boto 列出所有正在运行的 EMR 集群？

如何使用 boto 列出我的 aws 账户中所有正在运行的集群使用命令行我可以使用以下命令获取它们 aws emr list clusters profile my profile region us west 2 active 不过我想
使用 Jython 运行 python 脚本时出现“sys-package-mgr*：无法创建包缓存目录”

我想使用 Jython 运行 Python 脚本结果显示正确但同时出现警告消息 sys package mgr 无法创建包缓存目录我该如何解决这个问题先谢谢啦您可以通过在启动 jython 时设置 python cachedir
将 ssl 证书路径传递给 PostgreSQL ODBC 驱动程序

我正在尝试连接到 Postgres 数据库该数据库要求客户端使用 postgres 的 ODBC 驱动程序将路径传递给客户端和服务器 SSL 证书我在用着psqlodbcWindows 10 上的 v11 x86 我需要将三个选项传递给
如何在iOS SDK中集成串口通信

我对 iOS 开发非常陌生我想通过我的 iOS 应用程序使用串行端口通信通过蓝牙与 RN52 芯片进行通信谁能告诉我如何实现这一点或者他们有什么教程可以帮助我吗我需要 MFi 证书吗 None
flex-grow 在列布局中不起作用

我正在努力拥有views cntnr占用任何未使用的空间views cntnr and menubar分区为了实现这一点我将柔性显示设置为列方向然后我设置了flex grow财产为views cntnr1 似乎没有做任何事情 JSFi
Oracle 的“date'[yyyy-mm-dd]'”文字是否始终使用 yyyy-mm-dd 模式？

改写一下假设我像这样使用日期 date 2010 04 10 结果可能不是 2010 年 4 月 10 日例如 2010 年 10 月 4 日吗更新我听到你和文档的说法但当使用硬编码日期 yyyy mm dd s 运行批处理作业
java将数据写入Excel工作表

我有 3 个列表即 list1 list2 和 list3 我想在 Excel 工作表中将这些列表显示为 3 列例如列表 1 中的值应显示在 Excel 工作表的第一列中我将所有 3 个列表添加到最终列表中如下所示并且能够将它们
实例化对象时 ASP5/MVC6 中的 DllNotFoundException（使用 WorkItemStore 类）

我正在尝试实例化工作项存储 https msdn microsoft com en us library microsoft teamfoundation workitemtracking client workitemstore v vs
Docker容器运行时的环境变量文件

我有一个 docker 映像它基本上按照使用下面构建映像时定义的频率安排 cron 作业 COPY myjobtime etc cron d myjobtime RUN chmod 0644 etc cron d myjobtime cr
如何从控制器内部获取 Symfony2 中 Web 目录的服务器路径？

问题如下如何从控制器内部或因此从其他任何地方获取 Symfony2 中 Web 目录的服务器路径我已经发现了什么也通过在这里搜索关于 Doctrine 文件处理的食谱文章中建议了这一点 path DIR web 通过搜索发现只
我可以使用 PHP 提供 MP3 文件吗？

就像可以使用 php 提供图像以用于验证码等一样是否可以对音频文件执行相同的操作我试过这个
使用Python从网页中提取图像链接

所以我想获取此页面上的所有照片 nba 球队的照片 http www cbssports com nba draft mock draft http www cbssports com nba draft mock draft 然而我的代
Android 如何等待服务实际连接？

我有一个活动调用 IDownloaderService aidl 中定义的服务 public class Downloader extends Activity IDownloaderService downloader null 在 Do
如何绘制许多不均匀分布的 value_counts

假设我有以下数据 s2 pd Series 1 2 3 4 5 2 3 333 2 123 434 1 2 3 1 11 11 432 3 2 4 3 3 3 54 34 24 2 223 2535334 3 1 1 0 0 0 0 0 0

如何绘制许多不均匀分布的 value_counts

如何绘制许多不均匀分布的 value_counts 的相关文章

随机推荐

热门标签