为 pandas 中的列添加具有重复值的数字

2023-12-19

我有一个像这样的数据框：

df:
col1     col2
 1        pqr
 3        abc
 2        pqr
 4        xyz
 1        pqr

我发现有重复的值及其 pqr。我想在 pqr 发生的地方添加 1,2,3。我想要实现的最终数据框是：

df1
col1      col2
 1        pqr1
 3        abc
 2        pqr2
 4        xyz
 1        pqr3

如何高效地做到这一点

Use duplicated http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.duplicated.html with keep=False对于所有重复行并添加由创建的计数器cumcount http://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.cumcount.html:

mask = df['col2'].duplicated(keep=False)
df.loc[mask, 'col2'] += df.groupby('col2').cumcount().add(1).astype(str)

Or:

df['col2'] = np.where(df['col2'].duplicated(keep=False), 
                      df['col2'] + df.groupby('col2').cumcount().add(1).astype(str),
                      df['col2'])
print (df)
   col1  col2
0     1  pqr1
1     3   abc
2     2  pqr2
3     4   xyz
4     1  pqr3

如果只需要相同的pqr values:

mask = df['col2'] == 'pqr'
df.loc[mask, 'col2'] += pd.Series(np.arange(1, mask.sum() + 1),
                                  index=df.index[mask]).astype(str)
print (df)
   col1  col2
0     1  pqr1
1     3   abc
2     2  pqr2
3     4   xyz
4     1  pqr3

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

为 pandas 中的列添加具有重复值的数字的相关文章

Python的reduce()短路了吗？

If I do result reduce operator and False 1000 得到第一个结果后它会停止吗自从False anything False 相似地 result reduce operator or True 10
Scikit-learn 的内核 PCA：如何在 KPCA 中实现各向异性高斯内核或任何其他自定义内核？

我目前正在使用Scikit learn 的 KPCA https scikit learn org stable modules generated sklearn decomposition KernelPCA html对我的数据集执行降
如何在 ReportLab 段落中插入回车符？

有没有办法在 ReportLab 的段落中插入回车符我试图将 n 连接到我的段落字符串但这不起作用 Title Paragraph Title n Page myStyle 我想要这样做因为我将名称放入单元格中并且想要控制单元格中的
如何找到列表S的所有分区为k个子集（可以为空）？

我有一个唯一元素列表比方说 1 2 我想将其拆分为 k 2 个子列表现在我想要所有可能的子列表 1 2 1 2 2 1 1 2 我想分成 1 1 2 我怎样才能用 Python 3 做到这一点更新我的目标是获取 N 个唯一数字列表的
为什么我的scoped_session 引发 AttributeError: 'Session' object has no attribute 'remove'

我正在尝试建立一个系统将数据库操作优雅地推迟到单独的线程以避免在 Twisted 回调期间发生阻塞到目前为止这是我的方法 from contextlib import contextmanager from sqlalchemy i
Python 正则表达式部分匹配或“hitEnd”

我正在编写一个扫描器因此我将任意字符串与正则表达式规则列表进行匹配如果我可以模拟 Java hitEnd 功能不仅知道正则表达式何时不匹配还知道何时匹配这将非常有用 can t匹配当正则表达式匹配器在决定拒绝输入之前到达输入末尾
在 Flask (WSGI) 中使用全局单例，我是否需要担心竞争条件？ [复制]

这个问题在这里已经有答案了 Flask 的 hello world 演示是 from flask import Flask app Flask name app route def hello return Hello World if n
为 Networkx 图添加标题？

我希望我的代码创建一个带有标题的图使用下面的代码可以创建绘图但没有标题有人可以告诉我我做错了什么吗 import pandas as pd import networkx as nx from networkx algorithms
str.translate 给出 TypeError - Translate 采用一个参数（给定 2 个参数），在 Python 2 中工作

我有以下代码 import nltk os json csv string cPickle from scipy stats import scoreatpercentile lmtzr nltk stem wordnet WordNetL
如何在 Scala 中将 DataFrame 模式写入文件

我有一个 DataFrame 它从一个巨大的 json 文件加载并从中获取架构该架构基本上大约有 1000 列我希望将 printSchema 的相同输出保存在文件中而不是控制台中有任何想法吗如果您在本地环境中工作您可以执行以下操
如何使用 PySpark 有效地将这么多 csv 文件（大约 130,000 个）合并到一个大型数据集中？

我之前发布了这个问题并得到了一些使用 PySpark 的建议如何有效地将这一大数据集合并到一个大数据框中 https stackoverflow com questions 60259271 how can i merge this la
在 matplotlib 中使用 yscale('log') 时缺少误差线

在某些情况下当使用对数刻度时 matplotlib 会错误地显示带有误差条的图假设这些数据例如在 pylab 内 s 19 0 20 0 21 0 22 0 24 0 v 36 5 66 814250000000001 130 177
Python 视频框架

我正在寻找一个 Python 框架它将使我能够播放视频并在该视频上绘图用于标记目的我尝试过 Pyglet 但这似乎效果不是特别好在现有视频上绘图时会出现闪烁即使使用双缓冲和所有这些好东西而且似乎没有办法在每帧回调期间获取视频中
pip 安装软件包两次

不幸的是我无法重现它但我们已经见过几次了 pip 将一个软件包安装两次如果卸载第一个第二个就会可见并且也可以被卸载我的问题如果一个包安装了两次如何用 python 检查背景我想编写一个测试来检查这一点 devOp Updat
smooth_idf 是多余的吗？

The scikit learn 文档 http scikit learn org stable modules generated sklearn feature extraction text TfidfTransformer html
numpy.cov() 返回意外的输出

我有一个 X 数据集有 9 个特征和 683 行 683x9 我想获取这个 X 数据集和另一个与 X 具有相同形状的数据集的协方差矩阵我使用np cov originalData generatedData rowvar False 代
如何设置 matplotlib 表中列的背景颜色

我在一个目录中有多个 txt 文件例如 d memdump 0 txt 1 txt 10 txt 示例文本文件如下 Applications Memory Usage kB Uptime 7857410 Realtime 7857410
Python 枚举子集迭代

我想迭代以下枚举的子集 class Items enum Enum item1 0 item2 1 item3 2 item4 3 item5 4 item6 5 item7 6 item8 7 说我想 for item in Items
在Python 3.2中，我可以使用http.client打开并读取HTTPS网页，但urllib.request无法打开同一页面

我想打开并阅读https yande re https yande re with urllib request 但我收到 SSL 错误我可以使用以下方式打开并阅读页面http client用这个代码 import http client
从 pandas 数据框中绘制堆积条形图

我有数据框 payout df head 10 复制以下 Excel 绘图的最简单最智能和最快的方法是什么我尝试过不同的方法但无法让一切都到位 Thanks 如果您只想要一个堆积条形图那么一种方法是使用循环来绘制数据框中的每一列并

随机推荐

如何更改 Rails 语言环境文件中插值变量的大小写？

将 Rails 3 1 3 与 Ruby 1 9 3p0 结合使用我发现默认情况下 Rails 不使用表单按钮的句首字母大写例如它生成更新用户按钮而不是更新用户按钮按钮名称来自ActionView 区域设置文件 https
从 url 中删除 .html 的 .htaccess 文件不起作用

我试图摆脱页面 url 中的 html 我发现 htaccess 文件中的代码是这样做的唯一方法我已经尝试了几乎所有在线方法和代码但它就是不行工作创建一个 htaccess 文件并将其放入 public html 文件中我使用的一般
静态构造函数可以在非静态构造函数之后运行。这是编译器错误吗？

以下程序的输出是 Non Static Static Non Static 这是编译器错误吗我期望 Static Non Static Non Static 因为我认为静态构造函数总是在非静态构造函数之前调用我使用 net 3 5 和
vbscript 创建-转换带有特殊字符的 xml

I m creating vbs 文件中的 xml 文件其节点值如下所示
错误 - 无法找到或加载主类

我想连接我的java程序来连接数据库并检索数据它编译完美但运行时我明白了Error Could not find or load main class 我已经安装了Java SQL驱动程序并将jar路径添加到环境变量作为CLASSPA
错误 MSB4057：项目中不存在目标“Pack” - Visual Studio for Mac

我有一个项目在https github com PandaWood Simple MAPI NET https github com PandaWood Simple MAPI NET 我一直用构建创建 Nuget 包总是有效创建一个
删除 BottomSheet 顶部的多余空间

我在 application ii 中添加了 Bottomsheet 效果很好但唯一的问题是它覆盖了额外的空间我只想删除 Bottomsheet 布局顶部的那些额外空间我想删除突出显示的部分我怎样才能删除这些多余的空格这是我的 X
如何在 redux 表单中访问 redux 存储

我是react redux世界的新手如果我遗漏了什么请纠正我基本上我试图通过 redux 存储访问主机名并在表单中使用它截至目前我只是在 redux 表单中使用主机名引用 window location 但我想通过 redux 存
如何在Three.js中获取透视相机的角度值？

如何获取 3D 场景中透视相机每个角度的值我在用着Three js图书馆更准确地说我将用下一个标志来标记我想了解的内容我需要知道什么坐标我需要它因为我正在创建一个实模式地图引擎通过鼠标光标在 3D 场景中移动我想要实现的目标
Laravel 7：当用户未经身份验证时，如何防止中间件身份验证重定向？

我已经实现了中间件身份验证 this gt middleware auth api 该应用程序是 REST API 因此我不需要 Laravel 来重定向客户端我需要它返回 JSON 响应有一个方法redirectTo inside A
颤振错误：无法在“SchedulerBinding”上调用方法“addPostFrameCallback”？因为它可能为空

每当我尝试运行 Flutter 应用程序时都会收到此错误它正在运行但我不知道为什么现在不运行了我什至重置到之前的提交但它仍然无法运行 development flutter pub cache hosted pub dartlan
根据十六进制值设置单元格的背景颜色

我想根据另一个单元格中的十六进制值将背景颜色设置为一个单元格到目前为止我所做的 function setColorHEX hex var ss SpreadsheetApp getActiveSpreadsheet var cell ss
Mysql CSV加载infile

我有一个包含 9 列的 CSV 文件还有一个包含 11 列的 MySQL 表 CSV 文件如下所示 col1 col2 col3 col4 col5 col6 col7 col8 col9 MySQL 表如下所示 col1 col2 co
检索客户来源时的 Stripe 响应

我试图通过提供客户 ID 来检索特定客户的所有卡每文档 https stripe com docs api php list cards 我期待以下回复 Stripe Collection JSON object gt list url
sqlite 中的递归外键

sqlite 中是否允许自引用或递归外键是否有特殊的语法来完成此操作到目前为止我已尝试以下方法但无济于事 FOREIGN KEY ParentPrimaryKeyId REFERENCES ThisTableName PrimaryK
如何从 Xamarin.Forms 中的可移植类库项目调用位于 Android 项目内部的方法？

这可能听起来是一个愚蠢的问题但由于我对 Xamarin 还很陌生所以我会这么做所以我有一个 Xamarin Forms 解决方案还有一个 Android 项目和一个可移植类库我从 Android 项目内的 MainActivity
如何在 TFS 上创建分支并将挂起的更改附加到新分支

我正在主分支上工作并对文件做了很多更改我没有检查这些更改如何从主分支创建子分支但附加到主分支的所有本地挂起更改更改将附加到新创建的子分支所以基本上如何创建子分支并将父分支的所有挂起更改附加到子分支您可以搁置更改然后使用 T
如何从异步 Http 客户端请求获取 CompletableFuture？

On 异步 Http 客户端文档 https github com AsyncHttpClient async http client我看到如何获得Future
Intel MSR 每线程频率缩放

我正在扩展 Linux 内核以便控制某些线程的频率当它们被调度到核心任何核心时通过将正确的 p 状态写入寄存器来更改核心的频率IA32 PERF CTL 如英特尔手册中建议的那样但是当调度具有不同自定义频率的不同线程时似
为 pandas 中的列添加具有重复值的数字

我有一个像这样的数据框 df col1 col2 1 pqr 3 abc 2 pqr 4 xyz 1 pqr 我发现有重复的值及其 pqr 我想在 pqr 发生的地方添加 1 2 3 我想要实现的最终数据框是 df1 col1 col2 1

为 pandas 中的列添加具有重复值的数字

为 pandas 中的列添加具有重复值的数字 的相关文章

随机推荐

热门标签

为 pandas 中的列添加具有重复值的数字的相关文章