Pandas 重新映射到列中的范围

2024-02-05

我有一个带有 id:s 列的 DataFrame，可以包含重复项：

>>> df['user_id'].head()
Out[3]: 
0    2134
1    1234
2    4323
3    25434
4    1234
Name: user_id, dtype: int64

我如何重新映射它，以便用户 ID 从任意数字开始，根据原始数字递增？在此示例中，将从 2 开始：

>>> df['user_id'].head()
Out[3]: 
0    3
1    2
2    4
3    5
4    2
Name: user_id, dtype: int64

IIUC，您想按该列中的值对 df 进行排序，首先然后使用factorize:

In [29]:
df1 = df.reindex(df['user_id'].sort_values().index)
df1

Out[29]:
       user_id
index         
1         1234
4         1234
0         2134
2         4323
3        25434

In [30]:    
df1['new_id'] = pd.factorize(df1['user_id'])[0] + 2
df1

Out[30]:
       user_id  new_id
index                 
1         1234       2
4         1234       2
0         2134       3
2         4323       4
3        25434       5

然后您可以使用恢复索引sort_index:

In [31]:
df1 = df1.sort_index()
df1

Out[31]:
       user_id  new_id
index                 
0         2134       3
1         1234       2
2         4323       4
3        25434       5
4         1234       2

然后您可以覆盖或删除列，上面只是演示如何获取您想要的值

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

NumPy

Pandas 重新映射到列中的范围的相关文章

Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有

随机推荐

Swift：如何请求带有自签名证书的 URL？

我正在打开 SSL 连接以在 Swift 中检索 JSON 但正在使用自签名证书对我自己的服务器进行测试以下是 URL 请求的片段 var urlPath https myhost com get json var url NSURL N
将 NSMutableArray 保存到 NSUserDefaults 的最佳方法是什么？

我有一个名为 Occasion 的自定义对象定义如下 import
在 Highcharts 中动态附加加载或重绘事件函数

我需要在 Highcharts 中动态附加 onload 或 redraw 事件函数我知道在配置步骤中进行此操作例如 container highcharts chart events load function event funct
优化期间 Java 会内联方法吗？

我想知道 JVM javac 是否足够聪明来转动 This line string a foo string foo return bar string bar return some complicated string computat
使用 if(1 || !Foo()) 有什么理由吗？

我读了一些遗留代码 if 1 Foo 是否有任何不写的理由 if Foo 两者是not相同第一个永远不会评价Foo 因为1短路为什么这样做可能有人想强行进入then出于调试目的分支并将其留在那里也可能是这是在源代码控制之前编写的因
如何指定编辑器打开crontab文件？ “export EDITOR=vi”不起作用

我使用的是 Red Hat Enterprise Linux 5 我想设置 vim 编辑器来编辑 crontab 文件如果我跑echo EDITOR 我得到了活力但当我跑步时crontab e 我得到了不同的编辑器很可能你的VISUA
使用 data.table 包进行条件二进制连接和引用更新

这是我现实生活中的问题我觉得可以很容易地解决但我在这里遗漏了一些明显的东西我有两个大数据集TK and DFT library data table set seed 123 TK lt data table venue id rep
如何使用 Python 获取触发我的 Azure 函数的 inputBlob 的名称

我有一个天蓝色的函数它是由放入 blob 存储的文件触发的我想知道如何如果可能获取触发该函数的 blob 文件的名称我尝试这样做 fileObject os environ inputBlob message Python sc
尝试启动 Atom/Nuclide 时未找到流

我正在研究react native我正在使用的应用程序AtomIDE 我在打开时遇到错误Atom 我安装了babel cli and babel preset flow使用 npm 命令 npm install save dev babel
将 MS Access 表单和类/模块递归导出到文本文件？

我在一个古老的留言板上发现了一些代码它很好地从类模块和表单中导出了所有 VBA 代码见下文 Option Explicit Option Compare Database Function SaveToFile Save the co
Java 8 流式添加两个或多个列表中的值

我试图进入 Java 8 并了解流和 lambda 来解决各种问题但陷入了这个特定的问题我通常使用 forEach 并将值存储在 Map 中来解决您将如何编写代码来使用 Java 8 中的新功能获取预期列表 List
具有选择条件的 pandas 数据框中的高效最大选择

我有一个带有列的 pandas 数据框除其他外 user id and start time 我想高效且易读地找到与每个用户的最大值关联的所有行start time 例如如果这是我的数据 user id start time A B C
批量传输和 Android USB API

我有一个程序我尝试通过 USB 将我的 Android 设备连接到网络摄像头我在一些事情上遇到了麻烦即正确传输数据我尝试过使用bulkTransfer 但似乎无法识别它的使用情况我一直在尝试寻找可能对我有帮助的例子例如here
使用 Scala 生成代码

在 Scala 中使用 SBT 工具链时是否可以编写一个任务来读取项目源代码的特殊部分以在编译时生成 scala 代码有什么想法甚至文章教程吗我正在寻找与 Template Haskell 非常相似的东西环树者 scala htt
Laravel Lighthouse 中的身份验证

在我的 graphql API 中我必须通过两个不同的因素来授权对字段的请求用户是否有权访问数据或者数据是否属于用户例如用户应该能够看到自己的用户数据并且所有具有管理员权限的用户也应该能够看到这些数据我想保护这些字段以便具有不
RedisTemplate过期不起作用

我正在尝试测试 RedisTemplate 中的过期方法例如我将会话存储在 redis 中然后尝试检索会话并检查值是否相同对于过期会话我使用 redisTemplate 的 expire 方法对于获取过期会话我使用 getEx
NuGet System.Drawing.Common .NET 6 CA1416 此调用站点可在所有平台上访问。 “Image.FromStream(Stream)”仅支持：“windows”

升级 NuGetSystem Drawing Common到 6 0 0 会导致以下错误 CA1416 此调用站点可在所有平台上访问仅在 Windows 上支持 Image FromStream Stream https www nuge
无法将整数类型转换为 uuid

我试着跑python3 manage py migrate 但我得到了这个error File Library Frameworks Python framework Versions 3 8 lib python3 8 site pack
特定于页面的 CSS 规则 - 将它们放在哪里？

通常当我设计网站时我需要将特定样式应用于页面上的特定元素并且我绝对确定它只会应用于该页面上的该元素例如绝对定位的按钮或者其他的东西我不想诉诸内联样式因为我倾向于同意样式与标记分开的理念所以我发现自己在内部争论将样式定义放在哪
Pandas 重新映射到列中的范围

我有一个带有 id s 列的 DataFrame 可以包含重复项 gt gt gt df user id head Out 3 0 2134 1 1234 2 4323 3 25434 4 1234 Name user id dtype i

Pandas 重新映射到列中的范围

Pandas 重新映射到列中的范围 的相关文章

随机推荐

热门标签

Pandas 重新映射到列中的范围的相关文章