pandas 中的简单交叉表

2024-01-21

我偶然发现pandas http://pandas.pydata.org/它看起来非常适合我想做的简单计算。我有 SAS 背景，并认为它会取代 proc freq - 看起来它会扩展到我将来可能想做的事情。然而，我似乎无法专注于一项简单的任务（我不确定我是否应该看看pivot/crosstab/indexing- 我是否应该有一个Panel or DataFramesETC...）。有人可以给我一些关于如何执行以下操作的指示：

我有两个 CSV 文件（一个用于 2010 年，一个用于 2011 年 - 简单交易数据） - 列是类别和金额

2010:

AB,100.00
AB,200.00
AC,150.00
AD,500.00

2011:

AB,500.00
AC,250.00
AX,900.00

它们被加载到单独的 DataFrame 对象中。

我想做的是获取类别、类别的总和以及类别的频率，例如：

2010:

AB,300.00,2
AC,150.00,1
AD,500.00,1

2011:

AB,500.00,1
AC,250.00,1
AX,900.00,1

我不知道我是否应该使用pivot/crosstab/groupby/an index等等...我可以获得总和或频率 - 我似乎无法同时获得...它变得有点复杂，因为我想逐月进行，但我认为如果有人我会非常友善地为我指出正确的技术/方向，我将能够从那里开始。

v0.21 answer

Use pivot_table与index范围：

df.pivot_table(index='category', aggfunc=[len, sum])

           len   sum
         value value
category            
AB           2   300
AC           1   150
AD           1   500

<= v0.12

可以使用以下方法来做到这一点pivot_table对于那些有兴趣的人：

In [8]: df
Out[8]: 
  category  value
0       AB    100
1       AB    200
2       AC    150
3       AD    500

In [9]: df.pivot_table(rows='category', aggfunc=[len, np.sum])
Out[9]: 
            len    sum
          value  value
category              
AB            2    300
AC            1    150
AD            1    500

请注意，结果的列是分层索引的。如果您有多个数据列，您将得到如下结果：

In [12]: df
Out[12]: 
  category  value  value2
0       AB    100       5
1       AB    200       5
2       AC    150       5
3       AD    500       5

In [13]: df.pivot_table(rows='category', aggfunc=[len, np.sum])
Out[13]: 
            len            sum        
          value  value2  value  value2
category                              
AB            2       2    300      10
AC            1       1    150       5
AD            1       1    500       5

使用的主要原因__builtin__.sum vs. np.sum是你从后者获得 NA 处理。可能可以拦截Python内置的，现在会对此进行记录。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas 中的简单交叉表的相关文章

如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何从pandas中的多列计算多列

我正在尝试使用函数从 pandas 数据框中的多个列计算多个列该函数采用三个参数 a b 和 c 并返回三个计算值 sum prod 和 quot 在我的 pandas 数据框中我有三个列 a b 和 c 我想从中计算列 sum pro
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

Python Falcon 中的 CORS 失败，即使有 Auth Pre-Flight 的头

使用时收到这些错误选项动词在 Angular2 http get url options 中即使在 Falcon Rest API 中设置了适当的 CORS 标头 XMLHttpRequest 无法加载http localhost 800
Autofac Resolve 具有开放通用类的开放通用接口

所以我有一个接口和类 public interface IMyInterface
无法通过终端访问 OS X 中的 adb，“找不到命令”

我已在 Mac 系统上安装了 Android SDK 和 Eclipse 我能够使用 Eclipse 进行编程并创建了一些示例应用程序但我仍然无法访问adb通过终端窗口我在终端中尝试过以下命令 pwd Users espireinfol
在CDN的vue应用程序中保持资产和公共路径不同

vue 有这个选项publicPath https cli vuejs org config publicpath它允许将应用程序部署在子路径上 foob ar com my path 使链接和每个资产都可以通过它访问从性能的角度来看我
如何将 React App 嵌入到另一个网站

我有一个旧网站在服务器 x 上运行现在一个React App已经开发出来了在y服务器上该网站应显示 React App 我已经搜索并阅读了有关该主题的几篇文章但到目前为止没有成功目前唯一有效的解决方案是 iframe 但我们不想要
如何从用 Java 编写的 Azure Function App 连接到 PostgreSQL？

我有一个 Azure 函数应用程序其中有一个用 Java 编写的计时器触发函数我需要连接到部署在其中一台 Azure VM 上的 PostgreSQL 此处不使用托管 Postgres 我的代码 import java sql publ
R：plm——年度固定效应——年度和季度数据

我在设置面板数据模型时遇到问题这是一些示例数据 library plm id lt c 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 year lt c 1999 1999 1999 1999 2000 2000 200
Java 的 SQL 解析器库 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
AutoFac中是否可以获取容器类型

例如我在类型的构造函数中使用一个参数注册了类 C1System Type 我有另一个类 C2 其中注入了 C1 类型的参数我想收到typeof C2 自动在 C1 构造函数中以某种方式有可能吗示例代码 public class C1
如何查找网络机器名称和登录该机器的用户？

我必须找到机器名称以及登录机器的用户名 I have Updated My answer please see my answer NetworkBrowser nb new NetworkBrowser IPHostEntry ip Dn
每台服务器的带宽摘要

我正在尝试获取我帐户下所有 Softlayer 服务器的带宽数据谢谢account servers rb我能够获取所有服务器的服务器 ID 现在我想获取服务器在特定时间范围内使用的带宽我感兴趣的数据是 http sldn softlay
如何根据 R 中的条件填充数据框

我创建了一个像这样的空数据框 id Alyr Crub Lala Brap Bole Spar Esal Aara Thas 1 XLOC 003940 TBH 1 NA NA NA NA NA NA NA NA NA 我想看看是否id和列
Kubernetes DNS 在 Kubernetes 1.2 中失败

我正在尝试在 Centos 7 上的 Kubernetes 1 2 中设置 DNS 支持根据文档 https github com kubernetes kubernetes tree master cluster addons dns
查找具有相似文本的文章的算法

我在数据库中有很多文章带有标题文本我正在寻找一种算法来找到 X 个最相似的文章例如当你提出问题时 Stack Overflow 的相关问题我尝试用谷歌搜索这个问题但只找到了有关其他相似文本问题的页面例如将每篇文章与所有其
PHP 中大括号之间的匹配文本

直接跟进上一个question https stackoverflow com questions 413071 regex to get string between curly braces i want whats between t
MSI 安装程序 InstallValidate 如何确定正在使用的文件？

我正在尝试找出如何防止重新启动管理器在卸载应用程序时检测到需要重新启动我的应用程序有一个 Windows 服务它使用本机 DLL Tanuki Wrapper 并创建另一个写入一些日志文件的进程 Java 我正在使用 WiX Tools
在 Scala 中创建使用枚举作为键的 Map 的语法是什么？

请参阅下面的代码此行被 Eclipse 标记为不正确 var map Map MyEnum Point 我正在尝试做 Java 的 scala 等价物 private enum Letters A B C private Map
2014 年 1 月 17 日最新的 Google Chrome 更新触发页面无响应警报

我的项目是用 net v4 0构建的自上周 Chrome 浏览器更新以来每个页面都会触发页面无响应警报无论页面是否使用 ajax 该警报都会出现在每个页面上这不可能只影响我的项目有没有人对如何解决这个问题有任何建议所有其他浏
删除 httpOnly cookie - Express

是否可以删除设置为的浏览器cookieHttpOnly true 我的登录端点很简单如下所示 async login Ip ipAddress Request req Res res Response const auth await t
pandas 中的简单交叉表

我偶然发现pandas http pandas pydata org 它看起来非常适合我想做的简单计算我有 SAS 背景并认为它会取代 proc freq 看起来它会扩展到我将来可能想做的事情然而我似乎无法专注于一项简单的任务我不

pandas 中的简单交叉表

pandas 中的简单交叉表 的相关文章

随机推荐

热门标签

pandas 中的简单交叉表的相关文章