关于多键外连接的默认/填充值

2024-05-22

注意：下面的帖子是“多键”对应的先前的问题 https://stackoverflow.com/q/39748976/559827我的。先前问题的解决方案仅适用于连接位于单个键上的情况，并且我不清楚如何将这些解决方案推广到下面介绍的多键情况。因为，IME，以取消其收到的答案资格的方式修改一个已经回答的问题，在 SO 中是不受欢迎的，所以我单独发布这个变体。我还发布了一个question https://meta.stackoverflow.com/q/335424/559827向 Meta SO 询问我是否应该删除这篇文章并修改原始问题，但代价是使其当前答案无效。

以下是我正在使用的更大/复杂数据帧的微小/玩具版本：

>>> A
  key1 key2         u         v         w         x
0    a    G  0.757954  0.258917  0.404934  0.303313
1    b    H  0.583382  0.504687       NaN  0.618369
2    c    I       NaN  0.982785  0.902166       NaN
3    d    J  0.898838  0.472143       NaN  0.610887
4    e    K  0.966606  0.865310       NaN  0.548699
5    f    L       NaN  0.398824  0.668153       NaN

  key1 key2         y         z
0    a    G  0.867603       NaN
1    b    H       NaN  0.191067
2    c    I  0.238616  0.803179
3    d    G  0.080446       NaN
4    e    H  0.932834       NaN
5    f    I  0.706561  0.814467

（FWIW，在这篇文章的末尾，我提供了生成这些数据帧的代码。）

我想在这些数据帧上生成一个外部连接key1 and key2列，这样由外连接引起的新位置将获得默认值 0.0。 IOW，期望的结果看起来像这样

  key1 key2         u         v         w         x          y         z
0    a    G  0.757954  0.258917  0.404934  0.303313   0.867603       NaN
1    b    H  0.583382  0.504687       NaN  0.618369        NaN  0.191067
2    c    I       NaN  0.982785  0.902166       NaN   0.238616  0.803179
3    d    J  0.898838  0.472143       NaN  0.610887   0.000000  0.000000
4    e    K  0.966606   0.86531       NaN  0.548699   0.000000  0.000000
5    f    L       NaN  0.398824  0.668153       NaN   0.000000  0.000000
6    d    G  0.000000  0.000000  0.000000  0.000000   0.080446       NaN
7    e    H  0.000000  0.000000  0.000000  0.000000   0.932834       NaN
8    f    I  0.000000  0.000000  0.000000  0.000000   0.706561  0.814467

（请注意，这个所需的输出包含一些 NaN，即那些已经存在于A or B.)

The merge方法让我到达那里，但填充的默认值是 NaN，而不是 0.0：

>>> C = pandas.DataFrame.merge(A, B, how='outer', on=('key1', 'key2'))
>>> C
  key1 key2         u         v         w         x         y         z
0    a    G  0.757954  0.258917  0.404934  0.303313  0.867603       NaN
1    b    H  0.583382  0.504687       NaN  0.618369       NaN  0.191067
2    c    I       NaN  0.982785  0.902166       NaN  0.238616  0.803179
3    d    J  0.898838  0.472143       NaN  0.610887       NaN       NaN
4    e    K  0.966606  0.865310       NaN  0.548699       NaN       NaN
5    f    L       NaN  0.398824  0.668153       NaN       NaN       NaN
6    d    G       NaN       NaN       NaN       NaN  0.080446       NaN
7    e    H       NaN       NaN       NaN       NaN  0.932834       NaN
8    f    I       NaN       NaN       NaN       NaN  0.706561  0.814467

The fillna方法无法产生所需的输出，因为它修改了一些应保持不变的位置：

>>> C.fillna(0.0)
  key1 key2         u         v         w         x         y         z
0    a    G  0.757954  0.258917  0.404934  0.303313  0.867603  0.000000
1    b    H  0.583382  0.504687  0.000000  0.618369  0.000000  0.191067
2    c    I  0.000000  0.982785  0.902166  0.000000  0.238616  0.803179
3    d    J  0.898838  0.472143  0.000000  0.610887  0.000000  0.000000
4    e    K  0.966606  0.865310  0.000000  0.548699  0.000000  0.000000
5    f    L  0.000000  0.398824  0.668153  0.000000  0.000000  0.000000
6    d    G  0.000000  0.000000  0.000000  0.000000  0.080446  0.000000
7    e    H  0.000000  0.000000  0.000000  0.000000  0.932834  0.000000
8    f    I  0.000000  0.000000  0.000000  0.000000  0.706561  0.814467

如何高效地达到预期的输出？（性能在这里很重要，因为我打算在比此处显示的数据帧大得多的数据帧上执行此操作。）

重要的：为了使示例保持最小，我使多键仅包含两列；实际上，多钥匙中的钥匙数量可能要多得多。建议的答案应该适合由至少六列组成的多键。

FWIW，下面是生成示例数据帧的代码A and B.

from pandas import DataFrame
from collections import OrderedDict
from random import random, seed

def make_dataframe(rows, colnames):
    return DataFrame(OrderedDict([(n, [row[i] for row in rows])
                                 for i, n in enumerate(colnames)]))

maybe_nan = lambda: float('nan') if random() < 0.4 else random()

seed(0)

A = make_dataframe([['A', 'g', maybe_nan(), maybe_nan(), maybe_nan(), maybe_nan()],
                    ['B', 'h', maybe_nan(), maybe_nan(), maybe_nan(), maybe_nan()],
                    ['C', 'i', maybe_nan(), maybe_nan(), maybe_nan(), maybe_nan()],
                    ['D', 'j', maybe_nan(), maybe_nan(), maybe_nan(), maybe_nan()],
                    ['E', 'k', maybe_nan(), maybe_nan(), maybe_nan(), maybe_nan()],
                    ['F', 'l', maybe_nan(), maybe_nan(), maybe_nan(), maybe_nan()]],
                   ('key1', 'key2', 'u', 'v', 'w', 'x'))

B = make_dataframe([['A', 'g', maybe_nan(), maybe_nan()],
                    ['B', 'h', maybe_nan(), maybe_nan()],
                    ['C', 'i', maybe_nan(), maybe_nan()],
                    ['D', 'g', maybe_nan(), maybe_nan()],
                    ['E', 'h', maybe_nan(), maybe_nan()],
                    ['F', 'i', maybe_nan(), maybe_nan()]],
                   ('key1', 'key2', 'y', 'z'))

Set the keys作为两者的索引DF's:

def index_set(frame, keys=['key1', 'key2']):
    frame.set_index(keys, inplace=True)
    return frame

子集化DF's含有NaN values:

def nulls(frame):
    nulls_in_frame = frame[frame.isnull().any(axis=1)].reset_index()
    return nulls_in_frame

加入两个Df's。连接已连接的DF与每个子集NaN含有DF's并删除填充剩余的重复值NaN留下0。

然后，使用combine_first使用链接操作和连接来修补值DF.

def perform_join(fr_1, fr_2, keys=['key1', 'key2']):
    fr_1 = index_set(fr_1); frame_2 = index_set(fr_2)
    frame = fr_1.join(fr_2, how='outer').reset_index()
    cat_fr_1 = pd.concat([frame, nulls(fr_1)]).drop_duplicates(keys, keep=False).fillna(0)
    cat_fr_2 = pd.concat([frame, nulls(fr_2)]).drop_duplicates(keys, keep=False).fillna(0)
    fr_1_join = frame.combine_first(frame.fillna(cat_fr_1[fr_1.columns]))
    joined_frame = fr_1_join.combine_first(frame.fillna(cat_fr_2[fr_2.columns]))
    return joined_frame

Finally,

perform_join(A, B)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

关于多键外连接的默认/填充值的相关文章

如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数

随机推荐

使用 Python37 运行时通过 Cloud Functions 生成缩略图

我有一个由 Firebase 存储触发的 Google Cloud 函数我想生成缩略图虽然 Node js 文档有一个使用 ImageMagick 的示例 https cloud google com functions docs tu
如何拦截全局资源加载？

背景我需要使用翻译 SDK Lokalise 文档here https docs lokalise com en articles 3487109 lokalise android sdk 2 0 beta 旨在从其服务器加载字符串资源
简单循环的速度[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我用Java做了一个简单的循环只是为了测试速度与 C 中的相同循环相比它需要更多的时间 20亿次迭代大约需要6 5秒当它被执行时
您可以使用未命名的命名空间来隐藏标头中的常量吗？

我在头文件的命名空间中包含一些内联函数目前无法将它们移动到 cpp 文件中其中一些内联函数使用魔术常量例如 Foo h namespace Foo const int BAR 1234 inline void someFunc Do
如何授予 SQL Server 代理访问权限以便能够写入/修改系统文件？

我的工作有一个存储过程运行 BCP 来查询一些数据如果我单独运行 QUERYOUT 命令它就会起作用但是如果我尝试在作业中运行它它会创建文件但挂起并且数据永远不会放入文件中这会永远挂起所以我通常终止 BCP exe 我的
向 Laravel 的 Mailer 添加新的传输驱动程序

我需要向 Laravel 的邮件包添加一个新的传输驱动程序以便我可以通过默认情况下不支持的外部服务 Mailjet 发送电子邮件编写传输驱动程序不会成为问题但我找不到一种方法来连接并添加新的驱动程序以便我可以继续正常使用 Larav
将空行添加到文字输出 RMarkdown

再会我正在尝试使用导出到 Word 文档的 rmarkdown 文件创建会议摘要提交我正在尝试找到一种在输出的word文档中插入空行的方法我发现可以通过在 Markdown 文件末尾添加两个空格来插入换行符但是当您只需要一个空行时
Plotly：使用循环添加轨迹

I just learn Plotly and I am trying to make my python code better This is my dataframe 为了形象化这是我的代码但我认为它可以通过 For 循环来完成
ASP MVC 3 RequireHttps 属性将所有链接更改为 https

我有一个 ASP MVC 3 网站其中包含反馈表并且应该需要 SSL 现在我在名为 ContactUs 的控制器内有一个名为反馈的操作负责查看和处理反馈当我使用 RequireHttps 该操作上的属性效果很好并将 URL
Flask SQLAlchemy 无法在 venv 中设置属性错误[重复]

这个问题在这里已经有答案了我正在学习身份验证功能Flask SQLAlchemy 因此构建非常基本的应用程序用户属性姓名电子邮件和密码能够注册和登录重定向到虚拟个人资料页面仅此而已令人费解的行为是如果我使用虚拟环境我所
如何让 TypeScript 从 node_modules 捆绑第 3 方库？

我想要使用 TypeScript 编译器node modules firebase firebase d ts检查我的代码并捆绑node modules firebase firebase js到我从 firebase 导入内容的一些文件
将多个 Future[Seq] 连接成一个 Future[Seq]

如果没有 Future 这就是我将所有较小的 Seq 组合成一个大 Seq 的方式flatmap category getCategoryUrlKey id Int Seq Meta main method val appDomains S
Python for ios解释器[重复]

这个问题在这里已经有答案了可能的重复 iOS 上的 Python 或 Ruby 解释器 https stackoverflow com questions 4772591 python or ruby interpreter on ios
实体类型处于“影子状态”意味着什么？

在我的 ASP NET Core 1 0 MVC6 EF7 Web 应用程序中我添加了一个迁移该迁移添加了新的相关表和相应的模型我有以下模型快照 DbContext typeof ApplicationDbContext parti
nginx上传client_max_body_size问题

我正在运行 nginx ruby on rails 并且有一个简单的多部分表单来上传文件一切正常直到我决定限制要上传的文件的最大大小为此我设置了 nginxclient max body size to 1m 1MB 并且当该规则被
如何诊断和修复 git fatal: 无法读取树

我在用着git管理项目上的文件并不断遇到这个问题当我跑步时git status我收到消息 fatal unable to read tree e2d920161d41631066945a3cbcd1b043de919570 据我了解我
检查SQS队列是否为空的有效方法

我有一个SQS Queue多个主机从中读取消息我想在处理队列中的所有消息后运行一些作业业务逻辑如何检查队列是否为空是的我可以检查ApproximateNumberOfMessages and ApproximateNumberOf
比较 jdbc 中的结果集

在我的java代码中我获得了两个结果集rs1和rs2 如下所示 rs1 statement executeQuery select from tableA rs2 statement executeQuery select from ta
如何使用 C# 了解 Excel 中的分页符 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在使用 C 创建并格式化 Excel 电子表格因此我需要格式化合并单元格更改字体等直到第一页的最后如何知道 Excel 电子
关于*多键*外连接的默认/填充值

注意下面的帖子是多键对应的先前的问题 https stackoverflow com q 39748976 559827我的先前问题的解决方案仅适用于连接位于单个键上的情况并且我不清楚如何将这些解决方案推广到下面介绍的多键情况因

关于*多键*外连接的默认/填充值

关于*多键*外连接的默认/填充值 的相关文章

随机推荐

热门标签

关于多键外连接的默认/填充值

关于多键外连接的默认/填充值的相关文章