python pandas hub：如何进行适当的类似 tidyr 的传播？

2023-12-20

我缺少在 Python 中从长到宽的自发且简单的转换，反之亦然。想象一下，我有一个大型整洁的数据框，其中包含许多属性列和一个包含所有实际值的列，例如

PropA ... PropZ    Value
green     Saturn   400
green     Venus    3
red       Venus    2
.
.

通过保持数据的整洁，可以很好地处理数据本身。但有时我必须对某些属性执行一些操作（例如，比较蜂红色与蜂绿色（对于与其他属性相似的所有项目）可能很有趣）。因此，直接的方法是尽可能保持整洁，只整理我感兴趣的某些属性（PropA）。随后，我可以使用我想要的任何函数执行逐行映射，并且可以创建一个包含函数输出的附加 PropA-Entry。

然而，在 Python 中保持所有其他属性整洁并不像我习惯使用 R 那样容易。原因是，所有非关键属性都通过我找到的所有 pd 方法交给索引。如果我想保留更多的专栏，那真是一团糟。

那么你如何解决这个问题呢？是否有一些其他巧妙的方法来处理此类问题？

我自己写了一个传播方法，但是速度非常慢。也许，你对我如何改进有一些想法。

#the idea is to group by the remaining properties, which should be left in the long format.
#then i spread the small tidy data table for any group
    @staticmethod
    def spread(df, propcol, valcol):
        def flip(data,pc,vc):
            data = data.reset_index(drop=True)
            return {data[pc][i]:[data[vc][i]] for i in range(0,len(data))}

        #index columns are all which are not affected
        indcols = list(df.columns)
        indcols.remove(propcol)
        indcols.remove(valcol)

        tmpdf=pd.DataFrame()
        for key, group in df.groupby(indcols):
            dc1 = {a:[b] for (a,b) in zip(indcols,key)}
            dc2 = flip(group,propcol,valcol)
            tmpdf = pd.concat([tmpdf,pd.concat([pd.DataFrame(dc1),pd.DataFrame(dc2)],axis=1)])

        return tmpdf.reset_index(drop = True)

在提示的帮助下，我创建了一个更简单的版本。我对索引机制仍然有点困惑，但时间会帮助我更好地理解。

def spread(df, propcol, valcol):
    indcol = list(df.columns.drop(valcol))
    df = df.set_index(indcol).unstack(propcol).reset_index()
    df.columns = [i[1] if i[0] == valcol else i[0] for i in df.columns]
    return df

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pivot

spread

python pandas hub：如何进行适当的类似 tidyr 的传播？的相关文章

Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

MYSQL如何计算日期范围内的列的总和

该表类似于以下内容 date name count 2013 1 1 Jack 20 2014 3 8 Jack 3 2014 3 1 Tom 1 2014 3 1 Jack 7 2014 2 28 Mary 4 2014 2 28 Tom
数组上的递归深度函数

我有一个像这样的输入的对象数组我想将一些对象嵌套在另一个对象中基于它们的parentId是否是父母的forumId 我的函数可以工作但深度可达 1 如何才能使其工作于 n 深度任何想法或优化表示赞赏编辑指出后输入不一定是有序的
本地应用程序或网站的自定义 url 方案

我想开发一个网址如果安装了我的应用程序它将通过应用程序进行处理如果它不是 iPhone 或我们的应用程序未安装我想重定向到一个网址基本上与应用程序商店 url 的工作方式完全相同不幸的是 iOS 上的自定义 URL 处理程序不能
Web 应用程序 [] 似乎启动了一个名为 [Abandoned Connection cleanup thread] com.mysql.jdbc.AbandonedConnectionCleanupThread 的线程

在我的 Web 开发过程中我刚刚在 Eclipse IDE 中关闭了我的 Web 应用程序大约一分钟我刚刚看到WARNING在我的 Eclipse 控制台中 WARNING The web application Spring MVC
GridView 中每个项目的高度不同[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我的客户开发了一个 iPhone 应
Python：从路径递归创建字典

我有数十万个端点 URL 我想为其生成统计信息例如我有 a b c a b d a c d b c d b d e a b c b c d 我想创建一个看起来像这样的字典 a b c count 2 d count 1 c d count
VS 2015 复制到项目引用的输出 GAC 引用，无论复制本地设置如何

我提出了一个连接问题 https connect microsoft com VisualStudio Feedback Details 1804765对于这种行为 VS 2015复制到输出GAC项目引用的引用无论复制本地设置如何 VS
Hibernate：如何在注释中使用级联？

如何在 hibernate 中使用级联和注释但我仍然存有疑问我有这样的情况 public class Package OneToOne cascade CascadeType PERSIST private Product produc
在同一个类的另一个方法中调用一个方法

在 Bruce Eckel 的 Thinking In Java 4th Ed 的第 428 页关于类型信息的章节中有以下示例 public class Staff extends ArrayList
从超类调用子类方法

我正在学习 Java 入门课程我们刚刚开始学习继承我正在执行一项任务要求我们创建一个包含姓名和年龄的 Pet 超类和三个子类每个子类都有自己独特的特征我选择了狗猫和鸟构建完所有这些之后我们将创建一个 Main 类来测
Scala 解析器组合器递归 bnf 的技巧？

我试图匹配这个语法 pgm exprs exprs expr exprs expr ID expr 0 9 我的 scala Packrat 解析器组合器如下所示 import scala util parsing combinator P
百分比符号（%）是什么意思？ [复制]

这个问题在这里已经有答案了我遇到了一些包含以下内容的代码数组参数内的符号它是什么意思以及它是如何工作的 Example String name a b c d System out println name 4 name length
是否可以将对象方法作为参数传递给函数并将其绑定到对象？

是否可以绑定到对象方法例如我有一个向量和许多函数如果向量中存在某些项目它们就会执行某些操作我将按如下方式实现它 fn perform if exists item u8 vector Vec
批量导出psd文件为png

我有数千个 psd 文件要另存为 png 除了图像中心的小文本之外 psd 文件没有什么不同有没有办法自动化这项工作是的打开您的操作窗口创建新动作记录您自己打开将文件另存为 png 并关闭文件的情况然后在文件 gt 自动 gt
如何覆盖多个光标 Sublime Text 3 的快捷方式？

我正在使用 Linux FEDORA 20 我想覆盖多个光标的快捷键即 ctrl alt up down因为它用于在 Fedora 中切换工作空间我厌倦了搜索快捷方式Preferences gt key binding default
Java JTable 替代行颜色不起作用

为什么下面的代码不起作用哪里有问题我的jTable启动为jTable1 jTable1 setDefaultRenderer Object class new TableCellRenderer Override public Comp
如何在 Android 上使用 Google 的中文文字转语音服务？

我正在尝试从谷歌的文本转语音功能中提取音频文件基本上您输入链接然后在其末尾连接您想要说的任何内容我已经让下面的代码适用于英语所以我认为问题一定是中文字符如何在请求中编码这是我所得到的 String text text to be
MongoDB 中数十亿小文档的快速搜索策略

我需要存储数十亿个小型数据结构每个数据结构大约 200 字节到目前为止将每个元素存储为单独的文档运行良好 Mongo 每秒提供大约 10 000 个结果我使用 20 字节哈希作为每个文档的 id 并在 id 字段上使用单个索引在测
在 Elastic Beanstalk 上设置 Delayed_job 时如何修复“require”错误

我在 Elastic Beanstalk 上运行 Delayed jobs 时遇到问题我正在使用运行 Ruby 2 1 的 64 位 Amazon Linux 2014 03 v1 0 0 乘客独立版容器这是我的配置脚本 delaye
python pandas hub：如何进行适当的类似 tidyr 的传播？

我缺少在 Python 中从长到宽的自发且简单的转换反之亦然想象一下我有一个大型整洁的数据框其中包含许多属性列和一个包含所有实际值的列例如 PropA PropZ Value green Saturn 400 green Venu

python pandas hub：如何进行适当的类似 tidyr 的传播？

python pandas hub：如何进行适当的类似 tidyr 的传播？ 的相关文章

随机推荐

热门标签

python pandas hub：如何进行适当的类似 tidyr 的传播？的相关文章