pandas中DataFrame 数据合并,连接(merge,join,concat)

2023-11-17

pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中对pandas的方方面面都有了一个权威简明的入门级的介绍,但在实际使用过程中,我发现书中的内容还只是冰山一角。谈到pandas数据的行更新、表合并等操作,一般用到的方法有concat、join、merge。但这三种方法对于很多新手来说,都不太好分清使用的场合与用途。今天就pandas官网中关于数据合并和重述的章节做个使用方法的总结。

  • 文中代码块主要有pandas官网教程提供。

1 concat

concat函数是在pandas底下的方法,可以将数据根据不同的轴作简单的融合
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
       keys=None, levels=None, names=None, verify_integrity=False)
  • 参数说明 

objs: series,dataframe或者是panel构成的序列lsit 
axis: 需要合并链接的轴,0是行,1是列 
join:连接的方式 inner,或者outer

其他一些参数不常用,用的时候再补上说明。

1.1 相同字段的表首尾相接

这里写图片描述

# 现将表构成list,然后在作为concat的输入
In [4]: frames = [df1, df2, df3]

In [5]: result = pd.concat(frames)
  •  

要在相接的时候在加上一个层次的key来识别数据源自于哪张表,可以增加key参数

In [6]: result = pd.concat(frames, keys=['x', 'y', 'z'])
  •  

效果如下

这里写图片描述

1.2 横向表拼接(行对齐)

1.2.1 axis

当axis = 1的时候,concat就是行对齐,然后将不同列名称的两张表合并

In [9]: result = pd.concat([df1, df4], axis=1)
  •  

这里写图片描述

1.2.2 join

加上join参数的属性,如果为’inner’得到的是两表的交集,如果是outer,得到的是两表的并集。

In [10]: result = pd.concat([df1, df4], axis=1, join='inner')
  •  

<

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

pandas中DataFrame 数据合并,连接(merge,join,concat) 的相关文章

  • 《热题100》字符串、双指针、贪心算法篇

    思路 对于输入的的字符串 只有三种可能 ipv4 ipv6 和neither ipv4 四位 十进制 无前导0 小于256 ipv6 八位 十六进制 无多余0 00情况不允许 不为空 class Solution def solve sel
  • 区块链扩容系列之Plasma MVP

    以太坊低TPS一直被诟病 最近V神提出一种将以太坊TPS提升到500的方案 一经发表就被BM调侃 可见以太坊低TPS目前确实严重阻碍了以太坊的发展 连V神都不得不经常发声 我们知道以太坊低TPS的一个关键原因是以太坊采用POW 因而将部分交
  • selenium爬虫检测之如何避免对isTrusted属性检测

    如何避免对isTrusted属性检测 检测原理 什么是isTrusted属性 在web api官方网站mozilla org有如下解释 Event接口的 isTrusted 属性是一个只读属性 它是一个布尔值 Boolean 当事件是由用户
  • java中访问数组元素的方法

    1 使用普通 for 循环 这是最常见的遍历数组的方法 使用传统的 for 循环语法 通过索引来访问数组中的每个元素 int arr 1 2 3 4 5 for int i 0 i lt arr length i int element a
  • 【线上死锁分析】由index_merge引发的死锁事件

    1 事情背景 背景由于更换新的短信供应商 同事之前可能对这块业务不太熟 原本是回执ID recordId 一个手机号一个 但是同事接的时候将这个批量发送接口只设置了一个recordId 导致了多个手机号共用了一个recordId 2 线上d
  • Linux系统发生故障时,所有文件会以只读方式挂载

    解决办法 执行mount o remount rw 让文件可以修改 原因 挂载磁盘时 没有写fstab文件 或者fstab文件里写的是磁盘名称而不是uuid
  • 解决问题:EXT4 filefield 文件上传在IE8上返回状态无效,弹出下载页面

    解决描述 EXT4 filefield 以form 文件上传 基于IE8浏览器 不管上传成功与否 返回状态无效 即success function fp o 方法无效 并弹出下载页面 原代码情况如下 1 EXT4前台视图层view view
  • civetweb框架学习和使用(一)

    背景 CivetWeb基于Mongoose项目 是一个易于使用 功能强大的C C 嵌入式Web服务器 在2013年8月16日 在编写和分发此项目所依据的原始代码后 Mongoosed的许可证已经更改了 因此 CivetWeb已从上一个MIT
  • Windows下在后台运行jar包

    为什么80 的码农都做不了架构师 gt gt gt 新建一个bat文件 输入 echo off start javaw jar xxx jar exit 执行这个批处理程序就可以在后台运行jar包了 转载于 https my oschina
  • FIddler之Fiddler移动端抓包

    前言 笔者今天的这篇文章呢 想使用通俗易懂的话语 让大家明白以下内容 什么是抓包哪些场景需要用到抓包Fiddler抓包的原理怎样使用Fiddler进行移动端抓包 一 抓包 包 Packet 是TCP IP协议通信传输中的数据单位 一般也称
  • Apache/Tomcat/JBOSS/Jetty/Nginx区别 与选择

    总结 Apache Tomcat JBOSS Nginx区别 1 Apache是Web服务器 Tomcat是应用 Java 服务器 Tomcat在中小型系统和并发访问用户不是很多的场合下被普遍使用 Apache支持静态页 Tomcat支持动
  • 千行代码bug率统计

    1 计算公式 千行代码bug率 bug数 代码行数 1000 2 bug率标准 CMMI级别中做出了相关的指标规定 千行代码缺陷率 bug率 CMM1级 11 95 CMM2级 5 52 CMM3级 2 39 CMM4级 0 92 CMM5
  • JWT(Json Web Token)的原理、渗透与防御

    关于JWT kid安全部分后期整理完毕再进行更新 2023 05 16 JWT的原理 渗透与防御 目录 JWT的原理 渗透与防御 含义 原理 JWT的起源 传统session认证问题 token与session区别 JWT的结构与内容 JW
  • CVPR 2020-Object Detection

    目录 2D目标检测 视频目标检测 2D目标检测 Large Scale Object Detection in the Wild From Imbalanced Multi Labels Rethinking Classification
  • 芯片手册中的英文的表示含义

    芯片手册中的英文的表示含义 在读芯片的数据手册的时候 会有一些英文表示不知道是什么含义 现在整理了一些在下面 1 ppm 在一些电压芯片数据手册里 有一个描述基准性能的直流参数 称为温度漂移 也称温度系数 或简称TC Temperature
  • 机器学习之朴素贝叶斯: sklearn.naive_bayes

    朴素贝叶斯 sklearn naive bayes 1 贝叶斯原理 2 朴素贝叶斯 3 朴素贝叶斯模型 3 1 多项式模型MultinomialNB 3 2 高斯模型GaussianNB 3 3 伯努利模型BernoulliNB 4 skl
  • Python爬虫之爬取CSDN人工智能栏目的文章

    在进行正式开始爬虫之旅前 我们要认识几个Python库 urllib2 Python标准库 该库中提供了一系列针对url的操作方法 re Python标准库 提供了一系列针对字符串匹配的方法 BeautifulSoup4 最主要的功能是从网
  • 【推荐算法】双塔模型介绍

    双塔模型的结构不仅在推荐领域的召回和粗排环节中被广泛采用 而且在其它领域 如文档检索 问答系统等都有它的应用场景 我们常说的双塔模型的结构 并不是一个固定不变的网络 而是一种模型构造思路 即把模型分成用户侧模型和物品侧模型两部分 然后用互操
  • LaTeX公式、图片编辑中的常见问题(字体、对齐、编号等)

    类似博文 https blog csdn net u011698800 article details 109456028 输入保留符号 LaTeX中有许多字符都有特殊的意义 LaTeX中的保留字符有 这些在正文中都不能直接呈现 反斜杠用
  • C++数据结构X篇_02_线性表基本概念(线性表是零或者多个数据元素的有限序列;有顺序,有限,类型必须相同;线性表是具有相同类型n个数据元素的有限序列(a0,a1,...an)ai是表项,n是表长度)

    接上篇C 数据结构X篇 01 数据结构的基本概念 本篇将会学习线性表的基本概念 线性表的基本概念 1 线性表的基本概念 1 1 线性表的基本概念 1 1 1 线性表的特性 1 2 线性表的数学定义 1 2 1 线性表的性质 1 3 线性表的

随机推荐

  • 好家伙谷歌翻译又不能用了(有效解决方法)

    今天打开idea想翻译单词发现谷歌翻译又又又挂了 为什么挂掉 可能是那个ip节点太多人用了 我也不懂我就是一个小白 不bb了说一下解决方法 一 手动Ping可以连接的ip 这里我使用的是 https ping chinaz com 然后我们
  • 适合有编程基础的人看的《韩顺平零基础30天学java》笔记(374~397)

    写在最前边 研究生一枚 为后端实习和未来工作打基础 无意间发现韩顺平老师的课程 细心细致 讲课和吴恩达老师一样 都是保姆式讲解 各种基础知识都会补充 爱了 韩顺平老师课程地址 https www bilibili com video BV1
  • 眼底图像血管增强与分割--(2)Gabor滤波算法原理及实现

    在http blog csdn net piaoxuezhong article details 78213672中介绍了匹配滤波算法用于血管分割 本篇继续介绍血管分割的另一种方法 Gabor滤波算法 具体可以参见论文 Retinal Ve
  • 大律法(OTSU) ——图像数据二值化

    二值化的目的 是确定一个像素值 以像素为分界 将图像划分为前景和背景 前景的像素值取相同值 背景的像素也取相同值 从而将前景和背景的差异 在图像中最大化 或者说可以突出前景或者背景信息 二值化可以有效的降低噪声 并且可以一定程度的增强目标特
  • 数据结构刷题:第十六天(基础)

    目录 一 颜色分类 1 单指针 复杂度分析 2 双指针 复杂度分析 二 合并区间 1 排序 思路 看题解 一 颜色分类 75 颜色分类 力扣 LeetCode https leetcode cn problems sort colors p
  • HDU-2000

    题目本身不难 但是对于初学者 难的是数据的读入 方法一 使用getchar 去除每一行的空格符 include
  • git撤回push代码方法 分支受保护 不受保护时 详解

    git撤回push代码方法 分支受保护 不受保护时 详解 1 分支受保护时用revert 1 先说结果 如果分支受保护 那么就不能reset方法来撤回 原因后面说 那么需要通过revert来撤回 2 可以的方法 git revert能够生成
  • STL中的排序算法一览[By ACM郭老师]

    这篇文章我很喜欢 是郭老师的新作 希望大家喜欢 详细的从算法的效率方面来说明了排序算法 STL中有多种排序算法 各有各的适用范围 下面听我一一道来 I 完全排序 sort 首先要隆重推出的当然是最最常用的sort了 sort有两种形式 第一
  • python知识系列:os.path.listdir的坑

    问题描述 os path listdir在返回中文路径时 返回的是0xd4等非gbk或utf 8格式的编码 不知道具体编码格式是什么 E Projects PythonProjects DirectorySearchTest 3918L E
  • 【C++历险记】面向对象

    个人主页 兜里有颗棉花糖 欢迎 点赞 收藏 留言 加关注 本文由 兜里有颗棉花糖 原创 收录于专栏 C 之路 本专栏旨在记录C 的学习路线 望对大家有所帮助 希望我们一起努力 成长 共同进步 目录 一 多继承以及菱形继承 二 多继承引发的问
  • 优加DaaS背后,看见新的营销潮

    DaaS 融合开放 这是京东云优加对外传递出来的两个最清晰的声音 前者对应的是能力和边界 后者对应的是态度和打法 两者结合 恰构成了京东云优加 或者说京东在营销侧的未来想象力 作者 皮爷 出品 产业家 今年我们有接近60 以上的营销费用花在
  • Sublime Text 工具安装&配置

    一 安装 官网下载 https www sublimetext com download Windows 下载下来为exe安装程序 portable version 下载下来为zip压缩包 解压后无需安装就能运行 二 安装插件 插件官网 h
  • HIT--ICS计算机系统大作业

    目录 摘要 第1章 概述 1 1 Hello简介 1 2 环境与工具 1 3 中间结果 1 4 本章小结 第2章 预处理 2 1 预处理的概念与作用 2 2在Ubuntu下预处理的命令 2 3 Hello的预处理结果解析 2 4 本章小结
  • 伪类和伪元素的区别?

    前言 伪类和伪元素是CSS中的两种特殊方式 可以对HTML元素添加一些不同于普通选择器样式的显示效果 它们的实现方法类似 但其意义和使用方式有所不同 伪类 Pseudo Class 是在 CSS3 中引入的 用于描述元素的一些动态的和行为相
  • 蓝桥杯接龙数列(动态规划)

    蓝桥杯2023年第十四届省赛真题 接龙数列 C语言网 dotcpp com 我们要求最少删除多少个数 可以使剩下的序列是接龙序列 那么找到一条最长的接龙数列即可求出最少删除的个数 运用动态规划的思想 从前往后挨个考虑每个数字 一个前缀为6的
  • 五分钟带你了解Python基础知识【精华】

    Python基础知识详解 一 Python输出 1 repr 或 str 转成字符串 2 字符串填充空格进行格式化 3 a 使用 ascii s 使用 str 和 r 使用 repr 可以用于在格式化某个值之前对其进行转化 二 Python
  • .NET/C# 随机不重不漏的输出一个集合中的元素

    一 介绍 1 Random Random 类是一个产生伪随机数字的类 介绍 https docs microsoft com en us dotnet api system random redirectedfrom MSDN view n
  • C++primer习题3.14 vector读写字符

    include
  • sentinel-3卫星测高学习资料整理

    在学习过程中 整理关于sentinel 3测高的学习资料 1 SAR Radar Altimeter SRAL instrument specifics https eumetsatspace atlassian net wiki spac
  • pandas中DataFrame 数据合并,连接(merge,join,concat)

    pandas作者Wes McKinney 在 PYTHON FOR DATA ANALYSIS 中对pandas的方方面面都有了一个权威简明的入门级的介绍 但在实际使用过程中 我发现书中的内容还只是冰山一角 谈到pandas数据的行更新 表