pandas DataFrame 连接/更新（“upsert”）？

2024-05-21

我正在寻找一种优雅的方法将一个 DataFrame 中的所有行附加到另一个 DataFrame （两个 DataFrame 具有相同的索引和列结构），但如果两个 DataFrame 中出现相同的索引值，请使用第二个数据中的行框架。

因此，举例来说，如果我从以下内容开始：

df1:
                    A      B
    date
    '2015-10-01'  'A1'   'B1'
    '2015-10-02'  'A2'   'B2'
    '2015-10-03'  'A3'   'B3'

df2:
    date            A      B
    '2015-10-02'  'a1'   'b1'
    '2015-10-03'  'a2'   'b2'
    '2015-10-04'  'a3'   'b3'

我希望结果是：

                    A      B
    date
    '2015-10-01'  'A1'   'B1'
    '2015-10-02'  'a1'   'b1'
    '2015-10-03'  'a2'   'b2'
    '2015-10-04'  'a3'   'b3'

这类似于我认为在某些 SQL 系统中所谓的“upsert”——更新和插入的组合，从某种意义上说，来自的每一行df2是 (a) 用于更新现有行df1如果行键已存在于df1，或 (b) 插入df1如果行键尚不存在，则在最后。

我想出了以下内容

pd.concat([df1, df2])     # concat the two DataFrames
    .reset_index()        # turn 'date' into a regular column
    .groupby('date')      # group rows by values in the 'date' column
    .tail(1)              # take the last row in each group
    .set_index('date')    # restore 'date' as the index

这似乎有效，但这依赖于每个 groupby 组中的行顺序始终与原始 DataFrame 相同，我还没有检查过，并且看起来令人不快地复杂。

有谁有更直接的解决方案的想法吗？

一种解决方案是串联df1有新行df2（即索引不匹配的地方）。然后用来自的值更新值df2.

df = pd.concat([df1, df2[~df2.index.isin(df1.index)]])
df.update(df2)

>>> df
             A   B
2015-10-01  A1  B1
2015-10-02  a1  b1
2015-10-03  a2  b2
2015-10-04  a3  b3

EDIT:根据@chrisb的建议，可以进一步简化如下：

pd.concat([df1[~df1.index.isin(df2.index)], df2])

谢谢克里斯！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

pandas DataFrame 连接/更新（“upsert”）？的相关文章

让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

为什么 cordova.file.documentsDirectory 为空？

我正在尝试使用 cordova plugin file transfer 在http ngcordova com docs plugins fileTransfer http ngcordova com docs plugins fileT
如何使用RStudio用Stata命令编写RMarkdown文件？

我的问题已在标题中解释我尝试编译一个示例 Rmd 我在这里找到 http www ssc wisc edu hemken Stataworkshops Stata 20and 20R 20Markdown http www ssc wis
matplotlib 和地理数据图的纵横比

我处理地理信息并使用以下方式呈现结果 matplotlib 所有输入都是纬度经度度我转换成 x y 米用于我的计算我在中展示了我的结果纬度经度问题是获得图形的纵横比右所有图表都太宽是否有标准程序来设置正确的纵横比这
任何第三方都可以从我的项目加载嵌入式资源吗？

请参考我的一篇之前的问题 https stackoverflow com questions 14681364 issues passing data from dll to application 我问的是如何从 DLL 加载已编译的资源
jquery：$().animate() 不是函数

我已经做了很多搜索但无法找到我的问题的答案所以这里是我正在尝试创建一个滑出切换菜单本教程 http alijafarian com jquery horizontal slideout menu 我收到一个错误slideoutMenu
rpart 决策树中的 rel 误差和 x 误差有什么区别？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个来自 UCI 机器学习数据库的纯分类数据框https archive ics uci edu ml datasets Diabet
Netbeans 自动完成功能停止工作？

我使用的是 Netbeans 6 9 1 一切都很好但是突然间它停止检测对代码所做的任何更改例如新变量函数等如果我尝试重构重命名变量例如按 CTRL R 它说重构在此上下文中不可用如果重要的话它在 PHP 项目中有任何
JSON 序列化对象在多处理调用时出现错误 - TypeError: XXX 对象不可调用错误

我正在使用 JSON 序列化器辅助函数来轻松访问字典基本上以 JSON 形式接收对象 jsondict py Utilities for working with JSON and json like structures deeply
如何使用 C# 在 xsd 文件中创建数据表

我需要通过在 xsd 文件中编写代码来创建数据表而不是通过在 xsd 文件中使用 exixting 数据表右键单击 xsd 文件添加数据表但我不想使用这个我想编写一些代码来创建数据表我不知道解决这个问题请帮助解决这个问题谢
Google App Engine NDB 祖先查询不起作用

我正在尝试执行以下查询 query Comment query ancestor userKey ndb OR Comment modifiedDate gt lastSyncDate Comment activityDate gt las
如何格式化整数以仅具有所需的大小？

我一直在尝试以下代码 program hello write i9 10 end program hello 并改变格式字符串尝试使写入输出的字符串大小恰好满足表示整数所需的大小但到目前为止我无法管理它如何在 Fortran 中编写
Java单例内部类

我知道Java中单例的概念我在 Java 中创建单例作为内部类时遇到问题问题发生在持有者身上 public class NormalClass private class Singleton private static Singlet
Python：Urllib2 和 OpenCV

我有一个程序可以将图像保存在本地目录中然后从该目录中读取图像但我不想保存图像我想直接从url读取它这是我的代码 import cv2 cv as cv import urllib2 url http cache2 allposte
线程输出到 GUI 文本字段

我试图在 GUI 的 TextField 中输出但我得到的只是线程信息这只是完整代码的一小部分但完整版本也有同样的问题完整版本有 5 个不同的线程同时运行任何帮助或建议将不胜感激 public class O21 implemen
WordPress 插件滑块革命错误

我无法摆脱以下错误我激活插件后出现错误 Slider Revolution error could not unzip into the revslider public assets folder please make sure th
使用 PyCharm 用海龟（python）绘图

我正在运行最新的 PyCharm Pro 版本并尝试从临时文件运行以下代码但它似乎不起作用 import turtle wn turtle Screen alex turtle Turtle alex forward 150 alex l
无法删除 Microsoft Access 2003 中的主 -> 子子表单链接

我在删除访问子报表数据表单中的主 gt 子链接字段时遇到问题我尝试了各种方法来删除它们使用子报表的属性窗口以及链接向导我还从数据库中删除了子报表然后将现有对象重新导入到新的访问实例中一旦我重新添加子表单并将其命名为相同的名称链接
删除 Git 存储库，但保留所有文件

在我使用 Linux 的过程中的某个时刻我决定将我的主目录中的所有内容都放入源代码管理中是个好主意我不是在问这是否是一个好主意我是在问如何撤销它删除存储库的原因是我最近安装了 Oh My Zsh 而且我非常喜欢它问题是我的主目录有
将对象列表添加到 ef 中的上下文

是否可以在不使用 foreach addObject 的情况下将对象列表添加到实体框架中的 Context 感谢帮助从 EntityFramework 6 开始您可以使用DbSet AddRange 方法 IEnumerable htt
pandas DataFrame 连接/更新（“upsert”）？

我正在寻找一种优雅的方法将一个 DataFrame 中的所有行附加到另一个 DataFrame 两个 DataFrame 具有相同的索引和列结构但如果两个 DataFrame 中出现相同的索引值请使用第二个数据中的行框架因此举例来说

pandas DataFrame 连接/更新（“upsert”）？

pandas DataFrame 连接/更新（“upsert”）？ 的相关文章

随机推荐

热门标签

pandas DataFrame 连接/更新（“upsert”）？的相关文章