agg函数加入进度条

2023-11-13

在panda之中，我们经常需要使用到agg函数来将pandas之中的某几列聚合起来

from tqdm import tqdm
import pandas as pd
import numpy as np
df = pd.DataFrame({"A":[1.0, 2.0, 3.0, 1.0, 2.0, 3.0, 1.0, 2.0, 3.0], 
                   "B":[1.0, 1.0, 1.0, 2.0, 2.0, 2.0, 3.0, 3.0, 3.0], 
                   "C":[1.0, 1.5, 2.0, 2.0, 3.0, 4.0, 5.0, 6.0, 10.0],
                   "D":[2.0, 5.0, 3.0, 6.0, 4.0, 2.0, 5.0, 1.0, 2.0],
                   "E":['a', 'a', 'b', 'a', 'b', 'b', 'b', 'a', 'a']}) 

df2 = df.groupby('B').agg({
                           'C': 'mean',
                           'D': 'sum',
                           'E': lambda x: x.mode()
                         })
print(df2)

这里可以自定义list并加入进度条

agger = {
   'C': 'mean',
   'D': 'sum'}
   #'E': lambda x: x.mode()}
#加上'E'会报错:cannot perform both aggregation and transformation operations simultaneously
#这里的'E'为transformation opertions操作

gcols = ['B'] # columns defining the groups
groupby = df.groupby(gcols)

ngroups = len(groupby)
gfrac = 0.3 # fraction of groups for which you want to print progress
gfrac_size = max((1, int(ngroups*gfrac)))
#gfrac为比例,这里为0.3,ngroups为总的长度
#下面也就是将agg函数进行实现了一下
groups = []
rows = []
for i,g in tqdm(enumerate(groupby),total=len(groupby)):
    r"""
    i = 0,
    g = 
    (1.0,         A       B      C     D     E
      0          1.0     1.0    1.0   2.0    a
      1          2.0     1.0    1.5   5.0    a
      2          3.0     1.0    2.0   3.0    b)
    """
    gstats = g[1].agg(agger)
    r"""
    g[1] = 
         A    B    C    D   E
     0  1.0  1.0  1.0  2.0  a
     1  2.0  1.0  1.5  5.0  a
     2  3.0  1.0  2.0  3.0  b
    gstats = 
     C  1.5
     D  10.0
    newcols = 
    ['C', 'D']
    groups = 
    [1.0]
    rows = 
    [<numpy.flatiter object at 0x21d18a0>]
    
    g[1]取出了上面整体数据的前三个对应值
    g[1] = 
         A    B    C    D   E
     3  1.0  2.0  2.0  6.0  a
     4  2.0  2.0  3.0  4.0  b
     5  3.0  2.0  4.0  2.0  b
    gstats = 
     C     3.0
     D    12.0
    newcols = 
    ['C', 'D']
    groups = 
    [1.0, 2.0]
    rows = 
    [<numpy.flatiter object at 0x21d18a0>,<numpy.flatiter object at ox21cc610>,<numpy.flatiter object at 0x21cd060>]

	同理g[1]取出了上面的三个对应值
	g[1] = 
    	A    B     C    D  E
	6  1.0  3.0   5.0  5.0  b
	7  2.0  3.0   6.0  1.0  a
	8  3.0  3.0  10.0  2.0  a
	gstats = 
	C    7.0
	D    8.0
	newcols = 
	['C','D']
	groups = 
	[1.0,2.0,3.0]
	rows = 
	[<numpy.flatiter object at 0x21d18a0>, <numpy.flatiter object at 0x21cc610>, <numpy.flatiter object at 0x21cd060>]
    """
    if i==0:
        if gstats.ndim==2:
            newcols = gstats.columns.tolist()
        else:
            newcols = gstats.index.tolist()
    r"""
    newcols = ['C','D']
    newcols = ['C','D']
    newcols = ['C','D']
    """
    groups.append(g[0])
    r"""
    groups = [1.0]
    groups = [1.0,2.0]
    groups = [1.0,2.0,3.0]
    """
    rows.append(gstats.values.flat)
    r"""
    rows = [<numpy.flatiter object at 0x21d18a0>]
    rows = [<numpy.flatiter object at 0x21d18a0>, <numpy.flatiter object at 0x21cc610>]
    rows = [<numpy.flatiter object at 0x21d18a0>, <numpy.flatiter object at 0x21cc610>, <numpy.flatiter object at 0x21cd060>]
    """

df3 = pd.DataFrame(np.vstack(rows), columns=newcols)
if len(gcols) == 1:
    df3.index = groups
else:
    df3.index = pd.MultiIndex.from_tuples(groups, names=gcols)
df3 = df3.astype(df[newcols].dtypes)

之前每一次得到结果[1.5,10.0],[3.0,12.0]之类的，都是将数值展平之后压入rows

rows.append(gstats.values.flat)

因此这里得到新的结果之后，应该将新的结果进行展开得到对应的DataFrame

df3 = pd.DataFrame(np.vstack(rows),columns=newcols)

并且这里每次得到的列名0.0,1.0,2.0依次压入groups之中

groups.append(g[0])

因此这里最后对df3进行操作

if len(gcols) == 1:
	df3.index = groups
else:
	df3.index = pd.MultiIndex.from_tuples(groups,names=gcols)

这里将对应的group赋值到df3上面，得到结果

		C		D
1.0    1.5    10.0
2.0    3.0    12.0
3.0    7.0     8.0

方法2

import pandas as pd
import numpy as np
df = pd.DataFrame({"A":[1.0, 2.0, 3.0, 1.0, 2.0, 3.0, 1.0, 2.0, 3.0], 
                   "B":[1.0, 1.0, 1.0, 2.0, 2.0, 2.0, 3.0, 3.0, 3.0], 
                   "C":[1.0, 1.5, 2.0, 2.0, 3.0, 4.0, 5.0, 6.0, 10.0],
                   "D":[2.0, 5.0, 3.0, 6.0, 4.0, 2.0, 5.0, 1.0, 2.0],
                   "E":['a', 'a', 'b', 'a', 'b', 'b', 'b', 'a', 'a']}) 

df2 = df.groupby('B').agg({
                           'C': 'mean',
                           'D': 'sum',
                           'E': lambda x: x.mode()
                         })
print(df2)

class ModeHack:

    def __init__(self, size=5, N=10):
        self.ix = 0
        self.K = 1 
        self.size = size
        self.N = N

    def mode(self, x):
        self.ix = self.ix + x.shape[0]
        if self.K*self.size <= self.ix:
            print('{:.0f}% complete'.format(100*self.ix/self.N))
            self.K += 1

        return x.mode()

    def reset(self):    
        self.ix = 0
        self.K = 1

mymode = ModeHack(size=int(.1*df.shape[0]), N=df.shape[0])
mymode.reset()

agger = {
   'C': 'mean',
   'D': 'sum',
   'E': lambda x: mymode.mode(x)}

df3 = df.groupby('B').agg(agger)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

后端

agg函数加入进度条的相关文章

Hibernate注解放置问题

我有一个我认为很简单的问题我见过两种方式的例子问题是为什么我不能将注释放在字段上让我举一个例子 Entity Table name widget public class Widget private Integer id Id G
使用 JPA Criteria API 进行分页的总行数

我正在系统中为实体实现高级搜索功能以便用户可以使用该实体的属性上的多个条件 eq ne gt lt 等来搜索该实体我正在使用 JPA 的 Criteria API 动态生成 Criteria 查询然后使用setFirstResu
org.apache.sling.api.resource,version=[2.3,3) -- 无法解析

您好我无法访问我的项目内容我已经上传了从 CQ 访问内容所需的所有包我唯一能看到的是 org apache sling api resource version 2 3 3 无法解析这是否是异常的原因如果是请告诉我如何解决中Q
正则表达式拆分数字和字母组，不带空格

如果我有一个像 11E12C108N 这样的字符串它是字母组和数字组的串联如何在中间没有分隔符空格字符的情况下分割它们例如我希望分割结果为 tokens 0 11 tokens 1 E tokens 2 12 tokens 3 C
OSGi：如果不取消服务会发生什么

这是我获取 OSGi 服务的方式 ServiceReference reference bundleContext getServiceReference Foo class getName Foo foo Foo bundleContex
JAVA - Xuggler - 组合 MP3 音频文件和 MP4 电影时播放视频

使用 JAVA 和 Xuggler 以下代码组合 MP3 音频文件和 MP4 电影文件并输出组合的 mp4 文件我希望在合并音频和视频文件时应自动播放输出视频文件 String inputVideoFilePath in mp4 Stri
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
Java 文件上传速度非常慢

我构建了一个小型服务它从 Android 设备接收图像并将其保存到 Amazon S3 存储桶中代码非常简单但是速度非常慢事情是这样的 public synchronized static Response postCommentP
Hazelcast 分布式锁与 iMap

我们目前使用 Hazelcast 3 1 5 我有一个简单的分布式锁定机制应该可以跨多个 JVM 节点提供线程安全性代码非常简单 private static HazelcastInstance hInst getHazelcastIn
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
具有 java XSLT 扩展的数组

我正在尝试使用 java 在 XSLT 扩展中使用数组我收到以下错误 Caused by java lang ClassCastException org apache xpath objects XObject cannot be ca
编辑文件名在 JComboBox 中的显示方式，同时保持对文件的访问

我对 Java 很陌生对堆栈溢出也很陌生我正在尝试利用 JMF API 创建一个用 Java 编码的简单媒体播放器到目前为止我已经能够设置一个简单的队列播放列表来使用JComboBox called playListHolder
Javafx过滤表视图

我正在尝试使用文本字段来过滤表视图我想要一个文本字段 txtSearch 来搜索 nhs 号码名字姓氏和分类类别我尝试过在线实施各种解决方案但没有运气我对这一切仍然很陌生所以如果问得不好我深表歉意任何帮助将不胜感激我
欧洲中部时间 14 日 3 月 30 日星期五 00:00:00 至日/月/年

我尝试解析格式日期Fri Mar 30 00 00 00 CET 14至日月年这是我的代码 SimpleDateFormat formatter new SimpleDateFormat dd MM yyyy System out
Jersey 客户端请求中未设置 Content-Length-Header

我正在使用 Jersey Client 访问网络服务如下所示 response r accept MediaType TEXT PLAIN TYPE header content length 0 post String class 其中
如何知道抛出了哪个异常

我正在对我们的代码库进行审查有很多这样的陈述 try doSomething catch Exception e 但我想要一种方法来知道 doSomething 抛出了哪个异常在 doSomething 的实现中没有 throw 语句
游戏内的java.awt.Robot？

我正在尝试使用下面的代码来模拟击键当我打开记事本时它工作正常但当我打开我想使用它的游戏时它没有执行任何操作所以按键似乎不起作用我尝试模拟鼠标移动和点击这些动作确实有效有谁知道如何解决这个问题我发现这个问题如何在游戏中使用
javafx android 中的文本字段和组合框问题

我在简单的 javafx android 应用程序中遇到问题问题是我使用 gradle javafxmobile plugin 在 netbeans ide 中构建了非常简单的应用程序其中包含一些文本字段和组合框我在 android
如何使用 JSch 将多行命令输出存储到变量中

所以我有一段很好的代码我很难理解它允许我向我的服务器发送命令并获得一行响应该代码有效但我想从服务器返回多行主要类是 JSch jSch new JSch MyUserInfo ui new MyUserInfo String
带有 Maven Wrapper 的 Java 17 导致无法识别的 VM 选项“MaxPermSize=512m”

I use OpenJDK 17 https jdk java net 17 使用 Maven Wrapper 3 8 2 从春季初始化 https start spring io Maven项目 JAR打包 Java 17 Spring

随机推荐

R语言与机器学习中的回归方法学习笔记

机器学习中的一些方法如决策树随机森林 SVM 神经网络由于对数据没有分布的假定等普通线性回归模型的一些约束预测效果也比较不错交叉验证结果也能被接受下面以R中lars包包含数据集diabetes为例说明机器学习中的回归方法一数据集
JAVA根据模板生成Word文档

一需要模板word文件和document xml模板配置文件首先把word文件重命名后缀改为 zip然后打开就能在word文件夹下就能找到document xml了在document xml模板中需要赋值的地方配置好占位符二导入
CNN调参

一学习率学习率决定了每步权重更新对当前权重的改变程度其中E w 为我们优化的损失函数是学习率学习率太小更新速度慢学习率过大可能跨过最优解因此在刚开始训练距离最优解较远时可以采用稍大的学习率随着迭代次数增加在逼近最优
自动化测试框架rf（Robot Framework）的安装

2022了还没自己装过rf 网上找了不少文章或多或少都跟本地环境不太一下作为新手把安装过程做一次记录分享仅供参考首先帖一下我自己电脑的基本情况下面就开始吧一 JAVA环境安装现在基本都是java8以上了所以建议到官网下
Node.js中gulp插件的安装使用

1 Node js说明 gulp是用JavaScript语言编写的运行在Node js平台开发的前端构建工具是前端开发人员自动处理日常任务的首选工具 gulp cli 启动构建工具的命令行接口本地gulp 构建时实际运行的程序 gulp
[OLED] 利用stm32开发板控制OLED

一 OLED的介绍 OLED 即有机发光二极管 Organic Light Emitting Diode 又称为有机电激光显示 Organic Electroluminesence Display OELD OLED由于同时具备自发光不需
连续时间、离散时间信号、模拟和数字信号辨析

连续时间和离散时间信号一个信号它是在时间t的连续值上给出的就是一个连续时间信号而一个信号仅在t的离散值上给出则是一个离散时间信号模拟和数字信号凡一个信号的幅度在某一连续范围内能够取到任何值的信号就是模拟信号这意味着一个模拟信号
牛客 124G--组合游戏

链接 https www nowcoder com acm contest 124 G来源牛客网题目描述 2018年4月8日星期日小龙沉迷于一个叫做组合的游戏游戏规则是这样的原本有一个长度为A的大木板现在把它分成了n份长度可能不
Excel如何排序？掌握3种排序方法！

我是个刚开始学习Excel的新手对很多Excel的知识都不太熟悉今天使用Excel进行表格排序时我又遇到了一些问题请问Excel如何排序呢希望给我一些建议在Excel中排序是一种常见且有用的数据处理操作它可以帮助您按照特定的规
Unbutn20+cuda11+Qt下配置

首先装CUDA 具体查看其它博客这里主要介绍如何配置 CONFIG console TARGET test Define output directories CUDA OBJECTS DIR This makes the cu file
面了个阿里拿36K出来的，真是砂纸擦屁股，给我漏了一手

今年的春招已经结束很多小伙伴收获不错拿到了心仪的 offer 各大论坛和社区里也看见不少小伙伴慷慨地分享了常见的面试题和八股文为此咱这里也统一做一次大整理和大归类这也算是划重点了俗话说得好他山之石可以攻玉多看多借鉴还是有帮助
js实现图片预加载

什么是预加载当页面打开图片提前加载而且缓存在用户本地需要用届时直接进行烘托在浏览图片较多的网页百度图库淘宝京东等能够有更好的用户体会一张图片的预加载 var img new Image img addEventListene
pandas 导入excel_小白学 Python 数据分析（7）：Pandas （六）数据导入

人生苦短我用 Python 前文传送门小白学 Python 数据分析 1 数据分析基础小白学 Python 数据分析 2 Pandas 一概述小白学 Python 数据分析 3 Pandas 二数据结构 Series 小白学 P
echarts 生成的canvas只有100px的问题

在开发中遇到一个问题使用echarts的时候生成的canvas宽度不是实际写入的宽度后面发现因为使用了el tabs 存在echarts的tab页在刚开始处于display none 所以echarts拿不到页面的宽度解决办法在
Burp suite ——爆破账户密码（含爆破token防爆破）

此文章仅供交流学习使用目录爆破普通账户密码设置环境处理burp suite的抓包数据开始爆破爆破token防爆破账户密码设置环境处理抓包数据开始爆破爆破普通账户密码设置环境 1 打开火狐访问此网站更改代理火狐浏览器
【RocketMQ】消息重试、重试次数设置、死信队列

文章目录 1 死信队列 1 1 死信特性 1 2 查看死信消息 2 重试次数参数 2 1 Producer端重试 2 2 Consumer端重试 3 1 异常重试 3 2 超时重试参考 1 死信队列上一篇 RocketMQ 消息重试中我
OpenCL并行编程基础第六章 OpenCL事件和队列

任务队列允许程序员通过编辑直接创建管理和调度任务队列中的命令按提交命令的顺序执行队列中的吓一跳命令必须等待当前命令执行完后才能开始执行不同命令队列的先后执行顺序得不到保证 6 1 命令命令队列和事件命令队列保证FIFO 启动顺序
The selected directory is not a valid home for Go SDK

在GoLand中配置GOROOT的时候出现该错误 The selected directory is not a valid home for Go SDK Go的版本是1 4 2 GoLand 版本是2021 1 3 可能是版本问题更
自媒体如何使用ChatGPT提高效率

文章目录自媒体公司如何充分利用ChatGPT提高效率自媒体公司使用ChatGPT提高效率的具体案例训练ChatGPT 让它更懂你创作者全栈弄潮儿个人主页全栈弄潮儿的个人主页个人社区欢迎你的加入全栈弄潮儿的个人社区专栏地
agg函数加入进度条

在panda之中我们经常需要使用到agg函数来将pandas之中的某几列聚合起来 from tqdm import tqdm import pandas as pd import numpy as np df pd DataFrame A

agg函数加入进度条

方法2

agg函数加入进度条 的相关文章

随机推荐

热门标签

agg函数加入进度条的相关文章