熊猫：删除连续的重复项

2024-01-08

在 pandas 中仅删除连续重复项的最有效方法是什么？

drop_duplicates 给出：

In [3]: a = pandas.Series([1,2,2,3,2], index=[1,2,3,4,5])

In [4]: a.drop_duplicates()
Out[4]: 
1    1
2    2
4    3
dtype: int64

但我想要这个：

In [4]: a.something()
Out[4]: 
1    1
2    2
4    3
5    2
dtype: int64

Use shift https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.shift.html:

a.loc[a.shift(-1) != a]

Out[3]:

1    1
3    2
4    3
5    2
dtype: int64

因此上面使用布尔标准，我们将数据帧与移动 -1 行的数据帧进行比较以创建掩码

另一种方法是使用diff https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.diff.html:

In [82]:

a.loc[a.diff() != 0]
Out[82]:
1    1
2    2
4    3
5    2
dtype: int64

但如果您有大量行，这会比原始方法慢。

Update

感谢 Bjarke Ebert 指出了一个微妙的错误，我实际上应该使用shift(1)要不就shift()由于默认周期为 1，因此返回第一个连续值：

In [87]:

a.loc[a.shift() != a]
Out[87]:
1    1
2    2
4    3
5    2
dtype: int64

请注意索引值的差异，谢谢@BjarkeEbert！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

熊猫：删除连续的重复项的相关文章

Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
如何从pandas中的多列计算多列

我正在尝试使用函数从 pandas 数据框中的多个列计算多个列该函数采用三个参数 a b 和 c 并返回三个计算值 sum prod 和 quot 在我的 pandas 数据框中我有三个列 a b 和 c 我想从中计算列 sum pro
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是

随机推荐

DBIx::Class 包装/重载列访问器

使用 DBIx Class 我试图在更新或检索列的数据时对其进行操作例如在它进入数据库之前我想对其进行加密并且每当它被访问时我想对其进行解密我正在遵循这个例子DBIx 类手册食谱 https metacpan org modul
C++：当在函数内创建新对象并将其作为结果返回时，我必须使用 new 运算符来创建对象吗？

我有两个虚拟问题让我困惑了一段时间我确实在网上做了一些搜索并阅读了很多 C 教程但是我找不到具体的答案假设我们有一个名为 Node 的类它是单链表的构建块 class Node int data Node next 事实1 局部变量
如何在 ReactiveUI 中使用 WhenAny(...) 合并多个可观察值？

我有一个问题它是本网站上提出的以下问题的延伸当返回类型不重要时是否有更优雅的方法来合并可观察量 https stackoverflow com questions 8010372 is there a more elegant way
如何调试“无法加载文件或程序集”运行时错误？

我有一个使用 Java 库转换的项目IKVM http www ikvm net 我添加了创建的 DLL 以及所有可能的 IKVM DLL 作为对我的项目的引用但是当我运行它时出现以下运行时错误 System IO FileNotFou
spring boot 2.3.0.RELEASE 中的新错误：Oracle 12.2.0.1 jdbcdriver 出现 UnsatisfiedDependencyException，但 mysql jdbcdriver 不出现

创建了一个新的引导项目仅使用 jdbc 和 Oracle jdbc 作为依赖项
给出有向图中循环的示例

我想要一种算法它可以在有向图中给出循环的一个实例如果有的话谁能给我指明方向吗使用伪代码或者最好使用 Ruby 我之前问过类似的问题 https stackoverflow com questions 9620375 并按照那里的建
为什么 NumPy 在一个大矩阵 $M$ 上的减法比将 $M$ 分成较小的矩阵然后进行减法慢？

我正在编写一些代码其中有几个矩阵并且想要从每个矩阵的每一行中减去向量 v 然后对结果执行一些其他操作由于我正在使用 NumPy 并且希望尽可能地矢量化因此我认为可以通过将所有矩阵存储为一个大串联矩阵并从中减去 v 来加快运行时
编写一个算法来返回一个数组，使得 1..n 中的每个数字 k 恰好出现两次，并且与其副本相距 k 距离

这个问题是在一次采访中被问到的对于给定的整数 n gt 3 返回一个大小为 2n 的数组使得从 1 到 n 的每个数字 k 恰好出现两次并且每个数字及其重复项之间的距离等于该数字函数签名 int buildArray int n 例
单击单个单元格时如何突出显示整个 DataGrid 行？

我有一个 DataGrid 定义如下当我单击 DataGrid 中的单元格时仅该单元格会突出显示如何更改它以便当我单击单元格时整行突出显示
iPhone 连续动画与 setAnimationDelay

我正在尝试链接动画事件我正在编写的工作应用程序有多项选择测验首先您选择多项选择答案测验视图逐渐消失然后标签正确或不正确淡入然后淡出最后测验再次淡出这些事件由主视图控制器调用和处理我知道我可以使用 setAnimat
IntelliJ IDEA 无法创建 GUI 表单

据说创建一个新的 GUI 表单应该是一个简单的事情只需右键单击您的项目包或 src 文件夹然后转到新建 gt GUI 表单问题是我没有这个选项我创建了一个 Java 项目它编译并运行良好但我在新建下得到的唯一选项是 Ja
使用睡眠并选择信号

我想使用select 函数等待 1 秒因为我的程序使用信号来控制东西所以sleep 会提前返回奇怪的是当使用select 它也会提前返回我这样调用 select struct timeval timeout timeout tv
无法在 asp.net mvc 中使用资源文件进行本地化

我正在开发一个 ASP NET MVC 应用程序在我的应用程序中我想添加一个下拉选项供用户选择语言我找到了使用 ASP NET MVC 的本地化文章 http www c sharpcorner com UploadFile b8e
两个字符串日期与简单日期格式（如 EEE、MMM dd yyyy）进行比较

我需要使用 SimpleDateformat 比较两个字符串日期例如 EE MMM dd yyyy 但是当我比较它时它只会验证第一个值 EE 仅验证其他月份日期和年份不会验证如果有人知道这个问题解决方案请帮助我解决并提前感谢所有
为 python 安装 GDAL 时遇到问题

首先我要说的是我已经寻找了这个问题的帮助并浏览了我发现的大量线索但没有一个有效或者我无法理解他们所说的要做的事情一旦这样的线程在这里通过 pip 安装时 Python GDAL 包缺少头文件 https stackoverflo
如何将范围分配给 ssrs 2012 中的报表变量

我是 SSRS 2012 的新手有着使用 BusinessObjects 的悠久背景因此有时我很难知道如何搜索正确的术语我有一个这样的报告其中各部分位于 tablix 中而总计位于另一个中这个布局是必需的或者这会更简单一点 S
Swift 的 hash 和 hashValue 之间的区别

The HashableSwift 中的协议要求您实现一个名为的属性hashValue protocol Hashable Equatable Returns the hash value The hash value is not gua
C语言的回文程序

我的 C 程序是回文其功能有错误我的函数不是比较字符串中的 2 个字符当我输入单个字符时它会回答回文但如果是两个或更多字符则始终不是回文 Code int IntStrlength strlen StrWord int IntC
SQL Server TRY...CATCH 与 XACT_STATE

我对 MSDN 文档有疑问TRY CATCH块查看这篇文章并向下滚动到示例 C 使用 TRY CATCH 和 XACT STATE http msdn microsoft com en us library ms175976 aspx h
熊猫：删除连续的重复项

在 pandas 中仅删除连续重复项的最有效方法是什么 drop duplicates 给出 In 3 a pandas Series 1 2 2 3 2 index 1 2 3 4 5 In 4 a drop duplicates Out

熊猫：删除连续的重复项

熊猫：删除连续的重复项 的相关文章

随机推荐

热门标签

熊猫：删除连续的重复项的相关文章