什么时候适合使用 df.value_counts() vs df.groupby('...').count()？

2024-02-22

我听说 Pandas 通常有多种方法可以做同样的事情，但我想知道 -

如果我尝试按特定列中的值对数据进行分组并计算具有该值的项目数，那么什么时候使用才有意义df.groupby('colA').count()什么时候使用才有意义df['colA'].value_counts() ?

有区别value_counts http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html return:

生成的对象将按降序排列，以便第一个元素是最常出现的元素。

but count http://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.count.html不，它对输出进行排序index（由列创建groupby('col')).

df.groupby('colA').count()

用于聚合所有列df按功能count.所以它计算排除的值NaNs.

所以如果需要的话count仅一列需要：

df.groupby('colA')['colA'].count()

Sample:

df = pd.DataFrame({'colB':list('abcdefg'),
                   'colC':[1,3,5,7,np.nan,np.nan,4],
                   'colD':[np.nan,3,6,9,2,4,np.nan],
                   'colA':['c','c','b','a',np.nan,'b','b']})

print (df)
  colA colB  colC  colD
0    c    a   1.0   NaN
1    c    b   3.0   3.0
2    b    c   5.0   6.0
3    a    d   7.0   9.0
4  NaN    e   NaN   2.0
5    b    f   NaN   4.0
6    b    g   4.0   NaN

print (df['colA'].value_counts())
b    3
c    2
a    1
Name: colA, dtype: int64

print (df.groupby('colA').count())
      colB  colC  colD
colA                  
a        1     1     1
b        3     2     2
c        2     2     1

print (df.groupby('colA')['colA'].count())
colA
a    1
b    3
c    2
Name: colA, dtype: int64

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

什么时候适合使用 df.value_counts() vs df.groupby('...').count()？的相关文章

导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

在数基之间转换数字

我正在开发一个在数字基数之间进行转换的程序例如八进制是 8 十进制是 10 字母A to Z可以被视为基数 26 我想将 A 转换为0 Z转换为25 AA 转换为27 BA 转换为53 在开始编码之前我会在纸上进行编码以便我了解整个过
为什么 date() 不能正确地将 YYMMDDHHMM 转换为 MySQL 可接受的日期格式？

我想要一个像这样的字符串 1511030830 YYMMDDHHMM 并创建一个 MySQL 时间戳如下所示 2015 11 03 08 30 00 但是当尝试这样做时它将不起作用 string 1511030830 date dat
以编程方式启动时 Appium 不会初始化驱动程序

我正在使用 Java 和 Selenium 通过命令行初始化 Appium 以便在 Android chrome 浏览器上运行测试然而该过程运行无限时间并且代码来自 DesiredCapabilities 该行没有被执行代码 Pro
列出给定类的所有内部类 - Python

给定一个类我如何列出它的所有inner课程 class Car some var var class Engine some other var var2 class Body another var var3 现在给出Car我希望能够列
Next JS在arcgis地图上的多个坐标上显示信息窗口

下面是我的下一个 JS 代码它显示了一个简单的 ArcGIS 地图其中包含特定坐标上的点或标记谁能告诉我如何在地图上显示点的弹出信息窗口例如我单击任意点它将在其上打开相应的弹出窗口 import NavBar from comp
从 Swift 初始化器调用方法

假设我在 Swift 中有以下类有明显的问题 class MyClass let myProperty String init super init self setupMyProperty func setupMyProperty my
如何在 AWS Cognito 中编辑尝试更改密码的限制？

我已经实现了更改密码功能现在我想测试一下但我面临着尝试的极限我应该做什么来防止这个错误已超出尝试次数限制请稍后再试我是 Cognito 团队的成员这是不可配置的我们确实有保护机制来防止用户滥用忘记密码的 API 这可能就是您
Keras 中的 add_loss 函数的用途是什么？

目前我偶然发现了变分自动编码器并尝试使用 keras 让它们在 MNIST 上工作我找到了一个教程github https github com keras team keras blob master examples variat
如何按周添加两个日期中的日期？

I have a table in which rows have dates as monday dates of the weeks Some consecutive rows may not have consecutive week
如何在 F# 模块中定义可选参数？

我正在尝试用 F 重写一个小型 C 库但遇到了错误我试图为模块中的方法定义可选参数但编译器说可选参数仅允许在类型成员上使用我查过为什么你不能在松散的函数中使用它们 https stackoverflow com questions
使用 jQuery.extend 覆盖函数的原因可能是什么？

我正在寻找扩展引导插件的正确方法并找到了这个答案 https stackoverflow com a 12689534 1276032 https stackoverflow com a 12689534 1276032 让我烦恼的是最后
OpenCV，与教程中的代码进行特征匹配

我复制了代码与 FLANN 的特征匹配 http docs opencv org doc tutorials features2d feature flann matcher feature flann matcher html featu
Jquery 移动：ui-state=dialog

我正在使用 JQuery mobile 作为用户菜单列表但它似乎保存了按下的按钮链接 ui state dialog 当我使用网络浏览器上的后退按钮时这会干扰导航如何删除添加到 URL 的 ui state dialog 例子 htt
如何计算集群所需的zookeeper服务器数量？

有没有公式可以计算我需要的zookeeper服务器数量假设一个集群可能有 50 500 或 5000 个服务器在运行我如何将这些数字转换为我想要启动的 Zookeeper 服务器数量换句话说对 zk 服务器可以处理的工作负载有什么
无法导入 scala.reflect.runtime.universe

我想按照 scala 2 10 2 中的示例来尝试反射本教程 http docs scala lang org overviews reflection environment universes mirrors html 当我启动 sbt
快速解析对象内的json数组

这是一个样本json我必须在我的项目中实现的代码请告诉我如何编写代码我写了很多次代码这根本不是工作所以我希望请提供完整的例子在这里我可以看到首先有一个对象接下来有一个多个对象最后是一个对象内的数组请查看详情 Activit
Tkinter Canvas 将项目移动到顶层

我有一个 Tkinter Canvas 小部件 Python 2 7 而不是 3 在这个 Canvas 上我有不同的项目如果我创建一个与旧项目重叠的新项目它将位于前面现在我如何才能将旧项目移动到新创建的项目前面甚至移动到画布上所有
jQuery 从链接获取带有变量的 url 并通过 Ajax 发送它

我可以使用此链接通过 GET 将产品添加到购物车 div a href Add to Cart a div 我想使用 jQuery Ajax 保持在同一页面上如果启用了 JS 我已经写出了以下内容但当然它不起作用有人可以看看出了什么问
C ++，stl，map如何按值而不是键排序

我想仅使用值而不是键对地图容器中的元素进行排序怎么做我知道地图可以按键值排序但反之亦然怎么办我在 stackoverflow 中发现了同样的问题我喜欢这个solution https stackoverflow com a 269
什么时候适合使用 df.value_counts() vs df.groupby('...').count()？

我听说 Pandas 通常有多种方法可以做同样的事情但我想知道如果我尝试按特定列中的值对数据进行分组并计算具有该值的项目数那么什么时候使用才有意义df groupby colA count 什么时候使用才有意义df colA valu

什么时候适合使用 df.value_counts() vs df.groupby('...').count()？

什么时候适合使用 df.value_counts() vs df.groupby('...').count()？ 的相关文章

随机推荐

热门标签

什么时候适合使用 df.value_counts() vs df.groupby('...').count()？的相关文章