如何遍历一列列表并从另一列中删除另一个列表中同一索引处的元素？

2024-01-12

我有一个数据框，其中每行非列表后面跟着一行包含列值中的列表。

Name	Number	Country	Fruit	Fruit Date	Sport	Sport Date	Color	Color Date
Jack	23	Canada	Banana	09/01/2022	Basketball	09/01/2022	Blue	09/01/2022
Jack	23	Canada	['Banana', 'Apple', 'Apple']	['09/01/2022', '09/02/2022', '09/02/2022']	['Basketball', 'Soccer', 'Hockey']	['09/01/2022', '09/02/2022', '09/03/2022']	['Blue', 'Blue', 'Red']	['09/01/2022', '09/01/2022', '09/02/2022']
John	24	USA	Banana	09/01/2022	Basketball	09/01/2022	Blue	09/01/2022
John	24	USA	['Banana', 'Apple', 'Apple']	['09/01/2022', '09/02/2022', '09/02/2022']	['Basketball', 'Soccer', 'Hockey']	['09/01/2022', '09/02/2022', '09/03/2022']	['Blue', 'Blue', 'Red']	['09/01/2022', '09/01/2022', '09/02/2022']

我想删除每个列表中的重复列表值：Fruit、Sport、Color 及其相应的 Date 索引值。我还需要没有列表的行保持不变。我只希望带有列表的行受到此更改的影响。第一行只是每个列表中的第一次出现。

示例输出：

Name	Number	Country	Fruit	Fruit Date	Sport	Sport Date	Color	Color Date
Jack	23	Canada	Banana	09/01/2022	Basketball	09/01/2022	Blue	09/01/2022
Jack	23	Canada	['Banana', 'Apple']	['09/01/2022', '09/02/2022']	['Basketball', 'Soccer', 'Hockey']	['09/01/2022', '09/02/2022', '09/03/2022']	['Blue', 'Red']	['09/01/2022', '09/02/2022']
John	24	USA	Banana	09/01/2022	Basketball	09/01/2022	Blue	09/01/2022
John	24	USA	['Banana', 'Apple']	['09/01/2022', '09/02/2022']	['Basketball', 'Soccer', 'Hockey']	['09/01/2022', '09/02/2022', '09/03/2022']	['Blue', 'Red']	['09/01/2022', '09/02/2022']

我认为这里循环是不可避免的：

for col in df.columns:
    df[col] = [
        list(dict.fromkeys(v)) # to preserve the order of the values
        if isinstance(v, list) else v for v in df[col]
    ]

或者，您可以使用map https://pandas.pydata.org/docs/dev/reference/api/pandas.DataFrame.map.html那已经是2.1.0中添加 https://pandas.pydata.org/docs/dev/whatsnew/v2.1.0.html#new-dataframe-map-method-and-support-for-extensionarrays (从前 applymap https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.applymap.html):

df = df.map(lambda v: list(dict.fromkeys(v)) if isinstance(v, list) else v)

时间：

# loop : 907 µs ± 31.4 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
# .map : 630 µs ± 40.4 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

Output :

	Name	Number	Country	Fruit	Fruit Date	Sport	Sport Date	Color	Color Date
0	Jack	23	Canada	Banana	09/01/2022	Basketball	09/01/2022	Blue	09/01/2022
1	Jack	23	Canada	['Banana', 'Apple']	['09/01/2022', '09/02/2022']	['Basketball', 'Soccer', 'Hockey']	['09/01/2022', '09/02/2022', '09/03/2022']	['Blue', 'Red']	['09/01/2022', '09/02/2022']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

如何遍历一列列表并从另一列中删除另一个列表中同一索引处的元素？的相关文章

为什么 tkinter / window.update 在我的程序中随着时间的推移变得更慢？

我发现当我调用 window update 时当向窗口写入的内容较少时它的运行速度会更快但后来当我向窗口写入更多元素时 window update 需要更长的时间请参阅下面的我的代码您可以看到它在更新窗口之前一次向屏幕 100
子进程改变目录

我想在子目录超级目录中执行脚本我需要首先进入该子目录超级目录我无法得到subprocess进入我的子目录 tducin localhost Projekty tests ve python Python 2 7 4 default
Python 中的安全解除引用

Groovy 有一个很好的安全取消引用运算符这有助于避免 NullPointerExceptions variable method The method仅当以下情况时才会被调用variable is not null 有没有办法在 Py
如何在 ReportLab 段落中插入回车符？

有没有办法在 ReportLab 的段落中插入回车符我试图将 n 连接到我的段落字符串但这不起作用 Title Paragraph Title n Page myStyle 我想要这样做因为我将名称放入单元格中并且想要控制单元格中的
为 Networkx 图添加标题？

我希望我的代码创建一个带有标题的图使用下面的代码可以创建绘图但没有标题有人可以告诉我我做错了什么吗 import pandas as pd import networkx as nx from networkx algorithms
错误：无法访问文件“$libdir/plpython2”：没有这样的文件或目录

我正在运行 postgresql 9 4 PostgreSQL 9 4 4 on x86 64 unknown linux gnu compiled by gcc GCC 4 1 2 20070626 Red Hat 4 1 2 14 64
一行Python和SQLite代码，为什么需要加“，”？ [复制]

这个问题在这里已经有答案了 c execute INSERT INTO numbers VALUES random randint 0 100 如果我将上面的代码更改为 c execute INSERT INTO numbers VALUE
在Python中删除带有重音符号的字符串中的所有非字母字符

我正在尝试使用 Python 3 7 从包含重音符号的字符串中删除所有非字母字符空格除外我尝试了以下方法 import re text 29 1981 4 2008 clean text re sub W d text print cl
一起使用 Flask 和 Tornado？

我是以下的忠实粉丝Flask 部分是因为它很简单部分是因为它有很多扩展 http flask pocoo org extensions 然而 Flask 是为了在 WSGI 环境中使用而设计的而 WSGI 不是非阻塞的所以我相信它
从 IMDbPy 结果中的片目中获取电影 ID

我正在尝试创建一个数据集允许我根据 Python IMDb API 中的演员 ID 和电影 ID 加入演员和电影现在我正在尝试从演员的电影作品中提取电影 ID 列表但无法做到例如我知道 Rodney Dangerfield 在
smooth_idf 是多余的吗？

The scikit learn 文档 http scikit learn org stable modules generated sklearn feature extraction text TfidfTransformer html
如何强制 Y 轴仅使用整数

我正在使用 matplotlib pyplot 模块绘制直方图我想知道如何强制 y 轴标签仅显示整数例如 0 1 2 3 等而不显示小数例如 0 0 5 1 1 5 2 等我正在查看指导说明并怀疑答案就在附近matplotlib
使用Beam IO ReadFromPubSub模块时，可以在Python中提取带有属性的消息吗？尚不清楚是否支持

尝试将具有存储在 PubSub 中的属性的消息拉取到 Beam 管道中我想知道是否添加了对 Python 的支持这就是我无法阅读它们的原因我看到它存在于Java中 pipeline options PipelineOptions pi
如何向 SCons 构建添加预处理和后处理操作？

我正在尝试在使用 SCons 构建项目时添加预处理和后处理操作 SConstruct 和 SConscript 文件位于项目的顶部预处理动作生成代码通过调用不同的工具 gt 不知道在此预处理之后将生成的确切文件可以创建用于决定生成哪
最小硬币找零问题——回溯

我正在尝试用最少数量的硬币解决硬币找零问题采用回溯法我实际上已经完成了它但我想添加一些选项按其单位打印硬币数量而不仅仅是总数这是我下面的Python代码 def minimum coins coin list change mi
如何使用Featuretools按列值从单个数据框中的多个列创建特征？

我正在尝试根据之前的结果来预测足球比赛的结果我在 Windows 上运行 Python 3 6 并使用 Featuretools 0 4 1 假设我有以下代表结果历史记录的数据框原始数据框 https i stack imgur com
获取调用者文件的绝对路径

假设我在不同的目录中有两个文件 1 py 比如说在C FIRST FOLDER 1 py and 2 py 比如说在C SECOND FOLDER 2 py 文件1 py进口2 py using sys path insert 0 pa
在Python中从日期时间中减去秒

我有一个 int 变量它实际上是秒让我们调用这个秒数X 我需要得到当前日期和时间以日期时间格式减去的结果X秒 Example If X是 65 当前日期是2014 06 03 15 45 00 那么我需要得到结果2014 06 03
Python 枚举子集迭代

我想迭代以下枚举的子集 class Items enum Enum item1 0 item2 1 item3 2 item4 3 item5 4 item6 5 item7 6 item8 7 说我想 for item in Items
从数据集的给定日期范围中提取属于一天的数据

我有一个数据集日期范围为 2018 年 1 月 12 日到 8 月 3 日其中包含一些值维数为my df数据框是 my df shape 9752 2 每行包含半小时频率第一行开始于2018 01 12 my df iloc 0 D

随机推荐

如何在 xampp windows [php 7.2] 中安装/启用 GD？

我不知道如何为 PHP7 2 安装 php gd 有没有办法在 xampp windows 中安装启用 GD 扩展我检查了 php ini 文件php gd2 dll但我找不到那条线 PHP7 2 中似乎缺少 GD 有什么建议么转到
是否可以使用指向参数数量未知的函数的指针？

我正在编写一个简单的类来衡量函数在时间方面的性能用户应该能够发送指向他的函数的指针函数的参数调用该函数的时间以及我将调用该函数的时间返回经过的时间我的问题是我不知道用户的函数需要多少个参数我想使用可变参数函数来获取未知数量的参数
运行 tf.estimator.train 100 步时，在张量板上仅看到一个步骤

我有一个通过我自己的自定义构建的自定义估算器model fn 我想跑train并在张量板上查看每个步骤的数据点但是无论步骤数如何每次调用我都只能看到一个数据点以下是我构建和训练估算器的方法 estimator tf estimato
以给定概率获取伪随机项

我想在用户登录时给他一个奖品但它需要有一些稀有的奖品所以我想使用百分比以不同的机会出现奖品我想显示其中之一 50 flower 30 book 20 mobile 使用他们拥有的百分比如果有任何方法使用 Node js 或只是 ja
我应该如何在 ECS 上设置 Traefik？

简而言之我已经成功跑了Traefik本地及上AWS ECS但现在我想知道应该如何设置某种负载平衡以使我的两个具有随机 IP 的服务可供公众使用我当前在 ECS 上的设置 Internet Load balancer on port 4
gcloud 未添加用于连接 GKE 集群的访问令牌

我创建了一个 GKE 集群并使用以下命令连接到它kubectl运行针对我的集群单击连接按钮时出现的命令 gcloud container clusters get credentials cluster name zone us cen
SpringServletContainerInitializer 无法转换为 javax.servlet.ServletContainerInitializer

我正在尝试将基于 xml 的 Spring MVC 应用程序移动到基于 Java 配置的应用程序似乎与 maven 中可用的各种 java servlet 类不匹配例如有些提供 addServlet 方法有些则不提供这是我的配置类
VS 测试在管道中失败，缺少“Microsoft.NET.Test.Sdk”

由于以下原因我的构建失败了视觉工作室测试我的构建管道中的步骤失败我有一个简单的 NET Core v2 1 类库和关联的 MS 测试库我的管道有两个步骤 NET Core 构建步骤以及 Visual Studio 测试步骤这两个项
将字符串移动到向量中

有没有办法move将 std string 的内容转换为 std vector 我认为现在语言中有右值引用这个操作有时会非常有用 It is 理论上可以从一种对象类型移动到另一种对象类型然而这些对象类型的设计必须允许这样做 vecto
调整闪亮控件的标签位置

令我惊讶的是 StackOverflow 上以前没有出现过这个问题但无论如何问题是目前标签文本年龄范围在此处指定 sliderInput inputId age Age Range min 32 max 99 value c 3
为什么camel kafka Producer很慢？

我使用 apache camel kafka 作为生成消息的客户端我观察到 kafka 生产者需要 1 毫秒才能推送一条消息如果我使用骆驼聚合将消息合并到批处理中那么推送一条消息需要 100 毫秒安装简述 3 kafka 集群 16
仅在选定的列上使用 sklearn StandardScaler [重复]

这个问题在这里已经有答案了我有一个 numpy 数组 X 有 3 列如下所示 array 3791 2629 0 1198760 113989 0 4120665 0 1 前 2 列是连续值最后一列是二进制 0 1 我想仅将 Stan
最快的 iPhone Blit 例程？

我有一个UIView我需要将其位块传送到的子类UIImage 有多种方法可以给这只猫剥皮具体取决于您喜欢使用哪个系列的 API 我对最快的感兴趣可不可能是UIImage s drawAtPoint or drawRect 或者也许是基于
如何在 JavaScript 中正确柯里化函数？

我写了一个简单的curryJavaScript 中的函数在大多数情况下都能正常工作 const curry f a gt a length lt f length b gt curry f a b f a const add curry a
C - 将可变数量的命令行参数传递到具有可变数量参数的方法中

我正在编写一个 C 程序它将采用可变数量的命令行参数然后我需要获取这些参数并将它们传递到一个函数中该函数将可变数量的文件名作为单独的参数使用 va arg 获取函数内的参数原型为 void FindFile char filen
C++：响应 Windows 注销的清理操作

我想捕获 Windows 注销事件以便可以进行一些清理我的WindowProc看起来像这样 switch uMsg case WM ENDSESSION case WM DESTROY PostQuitMessage 0 return
ggplot：从年份子集中添加新行

我有大约 90 年的每日数据我想绘制长期平均值以及我的调查期间 2014 2018 每年的单独线条数据如下 gt head dischg date ddmm year cfs daymo 1 1 Jan 27 01 Jan 1927
.bash_profile 和终端

my bash profile looks this way 当我打开终端时我看到这三行 bash 导出 Workbooks app Contents SharedSupport path bin not a valid identifi
JavaFX 2 BorderPane 使用完整空间

我只是面临一个我自己无法解决的小问题我尝试在 BorderPane 中放置一个包含 TextField 和 HTML 编辑器的 vBox 但是未使用全部空间另一个问题是如果我缩小窗口 html 编辑器与我的左侧选项窗口重叠 pri
如何遍历一列列表并从另一列中删除另一个列表中同一索引处的元素？

我有一个数据框其中每行非列表后面跟着一行包含列值中的列表 Name Number Country Fruit Fruit Date Sport Sport Date Color Color Date Jack 23 Canada Bana

如何遍历一列列表并从另一列中删除另一个列表中同一索引处的元素？

如何遍历一列列表并从另一列中删除另一个列表中同一索引处的元素？ 的相关文章

随机推荐

热门标签

如何遍历一列列表并从另一列中删除另一个列表中同一索引处的元素？的相关文章