Pandas - DataFrame 聚合行为异常

2023-11-30

相关Dataframe聚合方法传递列表问题 and Pandas 无法使用聚合函数列表进行聚合

考虑这个数据框

import pandas as pd
import numpy as np
df = pd.DataFrame(index=range(10))
df['a'] = [ 3 * x for x in range(10) ]
df['b'] = [ 1 -2 * x for x in range(10) ]

根据文档 for aggregate您应该能够使用指定要聚合的列dict像这样：

df.agg({'a' : 'mean'})

哪个返回

a    13.5

但如果你尝试aggregate使用像这样的用户定义函数

def nok_mean(x):
    return np.mean(x)

df.agg({'a' : nok_mean})

它返回每行而不是列的平均值

为什么用户定义的函数返回的结果与聚合不同np.mean or 'mean'?

这是使用pandas版本0.23.4, numpy版本1.15.4, python版本3.7.1

该问题与申请有关np.mean到一个系列。让我们看几个例子：

def nok_mean(x):
    return x.mean()

df.agg({'a': nok_mean})

a    13.5
dtype: float64

这按预期工作，因为您使用的是 pandas 版本的平均值，它可以应用于系列或数据框：

df['a'].agg(nok_mean)
df.apply(nok_mean)

让我们看看当np.mean应用于一系列：

def nok_mean1(x):
    return np.mean(x)

df['a'].agg(nok_mean1)
df.agg({'a':nok_mean1})
df['a'].apply(nok_mean1)
df['a'].apply(np.mean)

全部返回

0     0.0
1     3.0
2     6.0
3     9.0
4    12.0
5    15.0
6    18.0
7    21.0
8    24.0
9    27.0
Name: a, dtype: float64

当你申请时np.mean到数据框它按预期工作：

df.agg(nok_mean1)
df.apply(nok_mean1)

a    13.5
b    -8.0
dtype: float64

为了得到np.mean要按预期使用函数，请传递 x 的 ndarray：

def nok_mean2(x):
    return np.mean(x.values)

df.agg({'a':nok_mean2})

a    13.5
dtype: float64

我猜这一切都与apply，这就是为什么df['a'].apply(nok_mean2)返回属性错误。

我猜here在源代码中

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

NumPy

DataFrame

Aggregate

series

Pandas - DataFrame 聚合行为异常的相关文章

使用 pandas/beautiful soup 抓取表数据（而不是慢的 Selenium？），BS 实现不起作用

我正在尝试抓取该网站上的网络数据而我能够访问数据的唯一方法是迭代表的行将它们添加到列表中然后将它们添加到 pandas 数据框写入csv 然后单击下一页并重复该过程每次搜索大约 50 页我的程序执行 100 多个搜索它非常慢
Pandas 数据透视表同时包含多列

我怀疑是否pandas pivot table可以一次接受两列并单独处理它们而不是分层处理假设我有以下数据框 id date day val 101 11 1 1 1 2 1 101 11 1 2 2 2 2 101 11 1 3 3
Pyspark：相当于 np.where [重复]

这个问题在这里已经有答案了这个操作在 Pyspark 中相当于什么 import pandas as pd import numpy as np df pd DataFrame Type list ABBC Set list ZZXY d
为每列指定不同的 float_format（科学记数法与小数精度）

我有多个列有些我想要科学记数法其他的则需要特定级别的小数精度 Frequency n 0 0 0023 2 3 1 0 0420 4 5 2 0 5460 6 7 3 0 1230 8 9 频率可以有很小的数量级所以我最终得到了十亿个
替换 Pandas 中各列的重复值

我有一个简单的数据框 df col1 A col2 B col3 C col4 0 col1 M col2 0 col3 M col4 0 col1 B col2 B col3 0 col4 B col1 X col2 0 col3 Y c
按名称获取多个 pandas 列的索引

我想获取选定的 pandas 数据框列的数字索引对于一列来说这非常简单 nonzero df columns values conditionA 但有多个元素我有一些有用的东西但很冗长和巨大 df pd DataFrame colu
熊猫按 n 最大总和分组

我正在尝试使用groupby nlargest and sum在 Pandas 中一起运行但在运行时遇到困难 State County Population Alabama a 100 Alabama b 50 Alabama c 40
如何在 Pandas Python 中按 id 对行进行排名

我有一个像这样的数据框 id points1 points2 1 44 53 1 76 34 1 63 66 2 23 34 2 44 56 我想要这样的输出 id points1 points2 points1 rank points2
Python，Google Places API - 给定一组纬度/经度查找附近的地点

我有一个由商店 ID 及其纬度经度组成的数据框我想迭代该数据框并使用 google api 为每个商店 ID 查找附近的关键地点例如输入 Store ID LAT LON 1 1 222 2 222 2 2 334 4 555 3
如何找到多个 pandas 数据框中一对列与任意顺序对的交集？

我有多个 pandas 数据框为了简单起见假设我有三个 gt gt df1 col1 col2 id1 A B id2 C D id3 B A id4 E F gt gt df2 col1 col2 id1 B A id2 D C id
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
从给定的项目列表创建子列表

我首先要说的是以下问题不是为了家庭作业目的即使因为我几个月前就完成了软件工程师的工作无论如何今天我正在工作一位朋友向我询问了这个奇怪的排序问题我有一个包含 1000 行的列表每行代表一个数字我想创建 10 个子列表每个子列表都
如何有效地比较 pandas DataFrame 中的行？

我有一个 pandas 数据框其中包含雷击记录以及时间戳和全球位置格式如下 Index Date Time Lat Lon Good fix 0 1 20160101 00 00 00 9962692 7 1961 60 7604 1
将二进制图像划分为像素数据“块”

我使用 Python 和 PIL 作为在二进制图像中嵌入数据的工作的一部分并且需要分析像素组以确定要操作的适当像素以便嵌入数据图像需要被分割成相等的像素数据块以供分析但我正在努力想出一种适当的方法来做到这一点我尝试过使用 Py
访问 pandas.Series.apply 中的索引

假设我有一个 MultiIndex 系列s gt gt gt s values a b 1 2 0 1 3 6 0 3 4 4 0 7 我想应用一个使用行索引的函数 def f x conditions or computations us
在 Cython 中访问 NumPy 记录数组列

我是一位相对经验丰富的 Python 程序员但很长一段时间没有编写任何 C 语言并且正在尝试理解 Cython 我正在尝试编写一个 Cython 函数该函数将在 NumPy 记录的列上进行操作到目前为止我的代码如下 recarray
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这

随机推荐

如何重定向并返回 200 状态代码

我有一个 Rails 应用程序当用户填写表单时它会使用新信用卡 ping stripe 完成后它会重定向回主页然而 stripe 说我返回 503 我认为这就是代码而不是 200 我正在执行常规的redirect to root
Composer 类映射和加载具有非标准扩展名的文件

通过composer加载文件时classmap功能是否可以加载具有非标准扩展名的 PHP 文件例如myFileName stub or myFileName foo 目前似乎还没有加载它们 Composer 目前将包含具有以下扩展名的文件
漂亮的 URL ASP.NET MVC

如何获得漂亮的网址如 localhost 8888 News Example post 而不是 localhost 8888 Home Details 2 我的 HomeController 有以下详细信息方法 public Action
重新部署远程 glassfish 货物失败

我目前正在尝试使用 Cargo 通过 Atlassian 的 Bamboo 在远程 glassfish 3 1 2 上部署应用程序这是一个开发环境因此具有不同版本号的相同应用程序每次都会部署在相同的上下文根上但每次我以 Maven 目
日期选择器 minDate 今天和 maxDate 明年 12 月 31 日

尝试将日期选择限制在今天和明年 12 月 31 日之间 function public holiday date pick datepicker minDate 0 yearRange 0 1 maxDate hideIfNoPrevNex
如何在Python pandas中从Excel文档中读取数据透视表？

我有一份 Excel 文档其中包含体育栏其中有体育名称和运动员姓名如果我点击运动名称运动员的名字就会消失即运动员的名字是运动名称的子代 Please look at the data below 如果我点击板球那么 ramesh
如何在 Express 中发送标头 [MEAN]

我是 Express 的初学者所以我可能没能正确地提出这个问题我创建了一个 MEAN 应用程序其中我将我的frontend and backened 前端运行于port 4200服务器运行于port 3000 作为部署的一部分我想在
python绘图日期轴作为字符串而不是日期

我想使用 pythonplotly 创建一个条形图其中 x 轴日期作为字符串类别由于某种原因 plotly 不断将字符串转换为日期我的 x 轴是日期的连续时间线而不是我期望的类别我的问题如何构建一个条形图将我的日期作为类别
RichTextBox 的只读内容不显示图像

我遇到过一些奇怪的行为RichTextBox 我希望它是readonly 但是当我使用时它不显示图像richTextBox LoadFile path 加载方法 rtf文件当它不是readonly文件已正确加载并显示图像我正在使用 Wi
Android折叠工具栏：如何调整文本大小，使其显示全文而不是部分文本

我正在使用 CollapsingToolbarLayout 我使用以下代码来显示标题 collapsingToolbar CollapsingToolbarLayout findViewById R id collapsing toolba
jQuery UI Slider - 禁用轨道上的滑动/启用手柄 mousedown

我有一个 jQuery UI 滑块当用户尝试使用轨道滑动时我想禁用它它应该仅在有人将手柄拖动到某处时才起作用启用应禁用单击并尝试拖动滑动来移动手柄我不确定这是否可以使用来完成unbind or mousedown event 我注
MVC 中的简单会员提供程序

如何从 ASP NET MVC4 中的空 Web 应用程序模板创建简单的会员提供程序我在谷歌必应和许多其他网站上搜索了很多但没有得到关于会员提供商的积极回应有人可以告诉我会员提供商的基本情况吗 please 我按照以下步骤操作因此
Enter 键上的 JQuery 自动完成操作

我希望自动完成功能像这样当用户在文本框中输入内容时不应发生任何事情仅当用户完成书写时才应出现自动完成建议列表在文本框中输入并按回车键知道如何做到这一点或者在哪里更改代码 STEP 1
从打开的“FILE*”获取缓冲参数

在C中我们可以使用设置vbuf 设置缓冲区其大小和缓冲模式我惊讶地发现没有人问如何read这些值给定一个开放的FILE e g stdout 或用户提供即如何实现 getvbuf 例行公事甚至是其中的一部分 void getv
为什么我的 Xamarin iOS 中的 WebRequest 在 ipv6 环境中失败？

我设置了本地ipv6环境如下https developer apple com library content documentation NetworkingInternetWeb Conceptual NetworkingOvervie
如何使用 Microsoft Bot Framework 显示来自我的机器人的欢迎消息

我想在有人连接到我的机器人时显示欢迎消息我使用了 github 上的 demo ContosoFlowers 示例中的技术 https github com Microsoft BotBuilder Samples tree master
绘制太多点？

R 基格或其他如何从 100000 个元素向量或输出该值的函数创建图形它会阴谋一些而拒绝另一些吗将所有内容都放在彼此之上我怎样才能改变这种行为我怎样才能创建一个图表让我在每个时间间隔都能看到最大值和最小值就像交易条形
导出的 JAR 无法读取图像 [重复]

这个问题在这里已经有答案了我正在尝试让图像显示在 JPanel 中这是我正在使用的代码 URL imageURL BufferedImage image null ImageIcon icon imageURL getClass get
使用 PDO 在 postgres 中自动回滚

我发现postgres PDO自动回滚当抛出异常时先前的更改即使异常被捕获并吞下示例伪代码 transaction gt begin try manager gt insert INSERT try manager gt exec
Pandas - DataFrame 聚合行为异常

相关Dataframe聚合方法传递列表问题 and Pandas 无法使用聚合函数列表进行聚合考虑这个数据框 import pandas as pd import numpy as np df pd DataFrame index ran

Pandas - DataFrame 聚合行为异常

Pandas - DataFrame 聚合行为异常 的相关文章

随机推荐

热门标签

Pandas - DataFrame 聚合行为异常的相关文章