将多列列表拆分为单独的行

2024-05-27

我有一个像这样的数据框 -

df = pd.DataFrame(
    {'key': [1, 2, 3, 4],
     'col1': [['apple','orange'], ['pineapple'], ['','','guava','',''], ['','','orange','apple','']],
     'col2': [['087','799'], ['681'], ['078'], ['816','018']]
     }
)

#   key                   col1        col2
#0    1        [apple, orange]  [087, 799]
#1    2            [pineapple]       [681]
#2    3        [, , guava, , ]       [078]
#3    4  [, , orange, apple, ]  [816, 018]

我需要拆分列“col1”和“col2”并创建单独的行，但根据索引映射列表元素。所需的输出是这样的 -

desired_df = pd.DataFrame(
    {'key': [1, 1, 2, 3, 4, 4],
     'col1': [['apple'],['orange'],['pineapple'], ['guava'], ['orange'],['apple']],
     'col2': [['087'],['799'], ['681'], ['078'], ['816'],['018']]
    }
)

在 col1 中，可能存在空白元素，但非空 col1 元素的总长度将与 col2 相应元素的长度匹配。示例：df 的第 2 行和第 3 行。

我尝试了以下方法，但没有成功 -

df.set_index(['key'])[['col1','col2']].apply(pd.Series).stack().reset_index(level=1, drop=True)

由于您知道每个列表中的非空元素数量始终匹配，因此您可以explode分别将每一列，过滤掉空白，然后将结果连接回来。添加一个.reset_index()如果你想'key'返回为一列。

import pandas as pd

pd.concat([df.set_index('key')[[col]].explode(col).query(f'{col} != ""')
           for col in ['col1', 'col2']], axis=1)

# Without the f-string
#pd.concat([df.set_index('key')[[col]].explode(col).query(col + ' != ""')
#           for col in ['col1', 'col2']], axis=1)

          col1 col2
key                
1        apple  087
1       orange  799
2    pineapple  681
3        guava  078
4       orange  816
4        apple  018

如果您使用的是旧版本pandas这不允许explode方法使用@BEN_YO 的解除嵌套方法 https://stackoverflow.com/a/53218939/4333359。我将在这里复制相关代码，因为有几个不同的版本可供选择。

import numpy as np

def unnesting(df, explode):
    idx = df.index.repeat(df[explode[0]].str.len())
    df1 = pd.concat([
        pd.DataFrame({x: np.concatenate(df[x].values)}) for x in explode], axis=1)
    df1.index = idx

    return df1.join(df.drop(explode, 1), how='left')

pd.concat([unnesting(df.set_index('key')[[col]], explode=[col]).query(f'{col} !=""')
           for col in ['col1', 'col2']], axis=1)
# Same output as above

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

list

multiplecolumns

rows

将多列列表拆分为单独的行的相关文章

SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
将 saxon 与 python 结合使用

我需要使用 python 处理 XSLT 目前我正在使用仅支持 XSLT 1 的 lxml 现在我需要处理 XSLT 2 有没有办法将 saxon XSLT 处理器与 python 一起使用有两种可能的方法设置一个 HTTP 服务接受
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
无法在 Python 3 中导入 cProfile

我试图将 cProfile 模块导入 Python 3 3 0 但出现以下错误 Traceback most recent call last File
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
识别 pandas 数据框中各组之间的差异

我有一个按日期和 ID 索引的 pandas 数据框我想识别日期之间增删的ID 将 ID 添加到另一个数据帧以及添加删除的日期 date ID value 12 31 2010 13 0 124409 9 0 555959 1 0 7
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

如何找到子游戏对象？

我想说一些诸如 Gameobject find child gameobject of specific parent Gameobject 谁能帮我谢谢 GameObject Find将在场景中搜索游戏对象要从父级搜索游戏对象请使用
如何确定ETS表的确切内存大小？

给定一个包含数据的 ETS 表 info 1 函数返回该表的各种属性包括size该值特定于行数而不是物理大小有没有办法计算 ETS 表占用的内存量以字节为单位 ets new mytable bag named table compr
在javascript中计算字符串值，而不是使用eval

有没有一种方法可以在不使用 JavaScript 的情况下计算存储在字符串中的公式eval 通常我会做类似的事情 var apa 12 5 9 9 4 2 console log eval apa 那么有谁知道替代品eval 嗯你可以使
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
无法加载“IE”，它没有注册！ Karma 上的错误消息

我正在使用 karma 在多个浏览器上运行 js 测试该测试适用于 Chrome 和 Firefox 但我无法在 IE 上激活它们我收到以下错误消息无法加载 IE 它没有注册也许你错过了一些插入在我的配置文件上 SET CHRO
CasperJs then() 是否等待前一个函数中发出的事件？

我只是好奇 CasperJS 如何处理与调用堆栈有关的事件假设我们有一些代码 casper on foo function this wait 60000 this echo foo casper start http www stack
具有相同引用的字符串连接？ [复制]

这个问题在这里已经有答案了这是我的代码我现在对字符串池和通过此输出进行堆存储 public class String1 public static void main String args TODO Auto generated m
需要参考$log.log调用行号

当我使用 Angular log 服务时控制台中的所有行都会显示对 angular js 5687 的引用而不是我调用 log log 函数的行如何获得对我调用 log 的行的引用另外我有自己的围绕 log 的服务如何引用对我的
Sublime Text 换行和提交消息

我使用 Sublime Text 3 作为我的默认 Git 提交消息编辑器我尝试遵循 Git 约定对每行字符数进行严格限制第一行 50 个其余行 72 个目前我已经按照这些间隔设置了指南以供视觉参考但是我希望 ST 自动为我插
在 R 中将列表列表转换为数据帧：Tidyverse 方式

我正在寻找将列表列表转换为 R 中的数据帧的 Tidyverse 方法 Create a list of lists a lt seq 1 10 1 b lt seq 1 20 2 Function to calculate the sum
如何从 C 代码生成 UML 序列图？

我看过一个实用程序跟踪2uml http trace2uml tigris org doxygen htm它解析源代码并查找 Trace2UML 语法来描述序列图并创建序列图我很想知道是否可以通过单独解析 C 源代码来创建序列图从原则上
如何调整ggplot2中的标题位置

这是代码 require ggplot2 require grid pdf a pdf png a png a lt qplot date unemploy data economics geom line opts title A b l
为什么 Twitter API 返回错误的推文 ID？

我使用 Twitter API 来检索用户主页时间线推文我使用 json 响应格式最近推文 ID 在 API 中只是 id 被重新调整错误举个例子通常它应该像这样返回 id 14057503720 示例来自twitter控制台但是
ArrayDeque 和 LinkedBlockingDeque

只是想知道为什么他们做了一个LinkedBlockingDeque而同一个非并发对应物是ArrayDeque它基于可调整大小的数组 LinkedBlockingQueue使用一组节点例如LinkedList 尽管没有实施List 我知道可
为什么 Sql Server 2000 上的 TSQL 对小数点的舍入不一致？

我正在尝试计算美元金额的折扣百分比在 50 的情况下有时你会得到半分钱我需要将其四舍五入到最接近的一分钱在Sql中我的计算如下 round retail 0 5 2 0 如果我采用以下值我会得到不同的结果 4 39 2 49 不
为什么在重新扫描期间参数替换没有被替换？

考虑以下宏定义和调用 define x x 0 define y arg arg y x 此调用扩展为x 0 在 Visual C 2010 g 4 1 mcpp 2 7 2 和 Wave 上测试 Why 具体来说为什么它不扩展到x 0
Spring-data-jdbc 插入 LocalDateTime 类型变量期间微秒精度丢失

在我看来当我们跑步时repository save entity 并且该实体有一个LocaldateTime映射到类型列的变量timestamp 6 spring data jdbc 或某些底层库将列中插入的数据四舍五入到小数点后 3
jQuery 自动完成滚动问题

我在用着Rails3 jquery 自动完成 https github com crowdint rails3 jquery autocomplete在我的应用程序中我遇到了以下问题如果您在输入字段中输入某些内容以便显示自动完成数据并在
如何根据状态从父表和子表获取数据，其中外键每行具有不同的状态

我有 2 个具有外键关系的表情况是我有一个case and a case有很多revisions 和每个revision有自己的status 如果仅更改外键表状态的特定行我想获取父表数据和子数据 Table Case id case n
将多列列表拆分为单独的行

我有一个像这样的数据框 df pd DataFrame key 1 2 3 4 col1 apple orange pineapple guava orange apple col2 087 799 681 078 816 018 key

将多列列表拆分为单独的行

将多列列表拆分为单独的行 的相关文章

随机推荐

热门标签

将多列列表拆分为单独的行的相关文章