我偶然发现pandas http://pandas.pydata.org/它看起来非常适合我想做的简单计算。我有 SAS 背景,并认为它会取代 proc freq - 看起来它会扩展到我将来可能想做的事情。然而,我似乎无法专注于一项简单的任务(我不确定我是否应该看看pivot/crosstab/indexing
- 我是否应该有一个Panel
or DataFrames
ETC...)。有人可以给我一些关于如何执行以下操作的指示:
我有两个 CSV 文件(一个用于 2010 年,一个用于 2011 年 - 简单交易数据) - 列是类别和金额
2010:
AB,100.00
AB,200.00
AC,150.00
AD,500.00
2011:
AB,500.00
AC,250.00
AX,900.00
它们被加载到单独的 DataFrame 对象中。
我想做的是获取类别、类别的总和以及类别的频率,例如:
2010:
AB,300.00,2
AC,150.00,1
AD,500.00,1
2011:
AB,500.00,1
AC,250.00,1
AX,900.00,1
我不知道我是否应该使用pivot/crosstab/groupby/an index
等等...我可以获得总和或频率 - 我似乎无法同时获得...它变得有点复杂,因为我想逐月进行,但我认为如果有人我会非常友善地为我指出正确的技术/方向,我将能够从那里开始。