按行删除每行列子集中的重复项，按行仅保留第一个副本

2023-12-02

我有以下 pandas 数据框，超过 700 万行

import pandas as pd

data = {'date': ['2023-02-22', '2023-02-21', '2023-02-23'],
        'x1': ['descx1a', 'descx1b', 'descx1c'],
        'x2': ['ALSFNHF950', 'KLUGUIF615', np.nan],
        'x3': [np.nan, np.nan, 24319.4],
        'x4': [np.nan, np.nan, 24334.15],
        'x5': [np.nan, np.nan, 24040.11],
        'x6': [np.nan, 75.33, 24220.34],
        'x7': [np.nan, np.nan, np.nan],
        'v': [np.nan, np.nan, np.nan],
        'y': [404.29, np.nan, np.nan],
        'ay': [np.nan, np.nan, np.nan],
        'by': [np.nan, np.nan, np.nan],
        'cy': [np.nan, np.nan, np.nan],
        'gy': [np.nan, np.nan, np.nan],
        'uap': [404.29, 75.33, np.nan],
        'ubp': [404.29, 75.33, np.nan],
        'sf': [np.nan, 2.0, np.nan]}

df = pd.DataFrame(data)

如果任何列 x3,x4,x5,x6,x7,v,y,ay,by,cy,gy,uap,ubp 中的数字有任何重复项，我想删除重复项并只保留一个复制，或者列中的一个x6或出现重复项的第一列。

在大多数行中，第一个副本（如果有副本）出现在 x6 列中。

输出应该是这样的，

data = {'date': ['2023-02-22', '2023-02-21', '2023-02-23'],
        'x1': ['descx1a', 'descx1b', 'descx1c'],
        'x2': ['ALSFNHF950', 'KLUGUIF615', np.nan],
        'x3': [np.nan, np.nan, 24319.4],
        'x4': [np.nan, np.nan, 24334.15],
        'x5': [np.nan, np.nan, 24040.11],
        'x6': [np.nan, 75.33, 24220.34],
        'x7': [np.nan, np.nan, np.nan],
        'v': [np.nan, np.nan, np.nan],
        'y': [404.29, np.nan, np.nan],
        'ay': [np.nan, np.nan, np.nan],
        'by': [np.nan, np.nan, np.nan],
        'cy': [np.nan, np.nan, np.nan],
        'gy': [np.nan, np.nan, np.nan],
        'uap': [np.nan, np.nan, np.nan],
        'ubp': [np.nan, np.nan, np.nan],
        'sf': [np.nan, 2.0, np.nan]}

到目前为止我才明白，

check = ['x3', 'x4', 'x5', 'x6', 'x7', 'v', 'y', 'ay', 'by', 'cy', 'gy', 'uap', 'ubp']

df[check] = df[check].where(~df[check].duplicated(), np.nan)

但这是错误的。

有办法完成这件事吗？

尝试这个：

check = ['x3', 'x4', 'x5', 'x6', 'x7', 'v', 'y', 'ay', 'by', 'cy', 'gy', 'uap', 'ubp']
df.loc[:, check] = df.loc[:, check].mask(df.loc[:, check].apply(pd.Series.duplicated, axis=1))
print(df)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

按行删除每行列子集中的重复项，按行仅保留第一个副本的相关文章

为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

升级后文件丢失

我安装的是1 1版本我使用 1 2 版本创建了升级在这两种产品中我都有 2 个文件
如何拦截提交按钮的点击？

我有一个表单和一个提交按钮我想快速检查一些字段如果未填写某个字段则空白其他一些字段我不想更改按钮的 HTML 我只想在 jQuery 中执行此操作而不向按钮添加任何 onclick 属性 HTML
无效的密钥哈希 facebook android sdk

我正在尝试使用 Facebook Android SDK 开发一个带有 Facebook 登录按钮的简单应用程序但我在密钥哈希方面遇到了麻烦我已经创建了调试密钥和发布密钥在 mac 中调试键 keytool exportcert a
给字符串添加空格

我正在尝试为每个空格添加一个空格直到column 0 我不知道该怎么做问题如下如果你看报纸你会发现文章的内容很适合专栏写一个程序它读取报纸中栏的宽度然后读取一行文本对齐文本行以适应该宽度的列当你的程序运行时屏幕应该看起
PHP 卷曲，保留会话

我正在制作一个应用程序可以从网站上抓取数据根据需要对其进行格式化然后将其显示给用户现在该站点不允许跨站点脚本请求因此我使用 PHP 的curl 来检索页面使用浏览器时网站会在您首次访问时向您提供 cookie 要求您登录并
使用 Flexbox 居中时 Safari 不显示 SVG

我在 Safari SVG 和 Flexbox 方面遇到问题目标是拥有一个响应式 SVG 保持宽高比 16 9 此外 SVG 应始终位于屏幕的垂直和水平中心以下代码适用于除 Safari 之外的所有浏览器我尝试了不同的供应商前缀但我
核心数据 keyPathsForValuesAffectingValueForKey 仅调用关系，而不调用属性

我正在使用核心数据来建模一个具有属性和关系的实体我想让其中一个属性依赖于另外两个关系核心数据常见问题解答和其他几个示例使用 NSSet keyPathsForValuesAffectingValueForKey NSString key
取消用户定义函数中先前的操作

是否可以取消用户定义函数中之前的操作例如 CREATE OR REPLACE FUNCTION transact test RETURNS BOOLEAN AS BEGIN UPDATE table1 SET UPDATE table2
如何从android中的sqlite数据库中检索数据并将其显示在TextView中

我正在学习安卓我有一个问题但我无法解决它我想从现有数据库中检索数据并将其显示在TextView单击按钮后 My code 数据库助手看起来像这样 public class DataBaseHelper extends SQLiteOp
卷积中的2D步幅是什么意思？

我知道当步幅只是一个整数时它的含义是什么通过这一步你应该对图像应用过滤器但是关于 1 1 或者甚至更多维度的进步 The stride定义滤波器如何沿着输入图像张量移动没有什么可以阻止你沿着不同的轴以不同的方式大步前进例如 st
如何在 Mac OS X 中监听应用程序启动事件？

我写了一个AppleScript安装一个SparseBundle图像我希望它准确地执行Time Machine发射现在我定期检查 Time Machine 是否正在运行AppleScript using on idle陈述 on id
带有操作栏和选项卡的 Android 布局

我是 Android 新手需要您的建议我想要一个带有操作栏的活动我还需要选项卡但不是操作栏中的选项卡和操作栏中的下拉列表进行导航当我点击例如第一个选项卡时操作栏中的导航列表应填充数据当秒选项卡时导航列表应填充其他数据等当
Javascript 错误：JupyterLab 中未定义 IPython

我有最新更新的 Anaconda 包每次我尝试使用 python 3 6 6 绘制某些内容时我都会在 JupyterLab 中收到以下错误 JavaScript 错误 IPython 未定义当我使用 ipython 内核在 Spyd
无法解决“c 不是构造函数”错误

我正在尝试使用 ExtJS 构建一个非常非常基本的概念验证应用程序但我遇到了困难我想要的只是两个网格从远程 JSON 文件获取数据但无论我做什么我都会不断收到主题中的错误这是我的简单代码 app js Ext Loader s
Azure 函数在大型 TIF 文件上调用 Image.FromStream 抛出“参数无效”

我正在尝试在 Azure 函数中处理多页 TIF 该函数由 blob 存储的更改触发当触发器运行时它会调用 function loadFile Stream mpTif Bitmap pageOnes Bitmap Image From
将模块版本作为命令行参数发送给 SBT

我正在使用 TeamCity 运行 bash 脚本该脚本利用 SBT Native Packager 将映像发布到 Docker bash 脚本的 sbt 部分如下所示 sbt DdockerRepository repo Dpackag
更新 VS2008 Crystal Reports 上的数据集架构

我正在使用 Visual Studio 2008 中 Crystal Reports 的内置模块创建一个报告为此我添加了一个包含多个数据表的数据集就目前而言数据表具有一定数量的字段这些字段将来可能会增长因此下一个更新我的报告的人将
event.currentTarget 的实际用途？

非常清楚的是event target处理发起事件的 DOM 元素 And event delegateTarget提供我们实际附加监听器的 DOM 元素但我很难理解我什么时候会使用事件 currentTarget 查看显示此示例的 jQ
并行 ForEach 与 SQL 插入 C#

我有一个如下所示的对象但数据量很大我们观察到插入到我们的 SQL 数据库中需要很长时间因为我们使用普通的foreach 主要思想是插入每个部门并获取生成的身份号码然后插入分配有该部门 ID 的嵌套员工
按行删除每行列子集中的重复项，按行仅保留第一个副本

我有以下 pandas 数据框超过 700 万行 import pandas as pd data date 2023 02 22 2023 02 21 2023 02 23 x1 descx1a descx1b descx1c x2 A

按行删除每行列子集中的重复项，按行仅保留第一个副本

按行删除每行列子集中的重复项，按行仅保留第一个副本 的相关文章

随机推荐

热门标签

按行删除每行列子集中的重复项，按行仅保留第一个副本的相关文章