Pandas 根据 diff 列形成簇

2024-05-20

我正在尝试使用 Pandas 根据表示时间（以秒为单位）的列中的差异来消除数据框中的一些接近重复项。例如：

import pandas as pd, numpy as np
df=pd.DataFrame([1200,1201,1233,1555,1650,5561,5562],columns=['Time'])
df['Dif']=df.Time.diff()
df['Coef']=np.random.rand(len(df))

所以我需要做的是检查每个组的时间值在 2 秒内发生，选择 Coef 值最高的组并丢弃其余的。所以在这个例子中，我会以某种方式将索引 0 和 1 组合在一起并丢弃索引 0 （因为 df.Coef[0] 1 ).

同样，索引 5,6 和 7 将被分组在一起，并且除了索引 6 之外的所有索引都会被丢弃。所以所需的输出将是 df.drop([0,5,7])：

我目前有一个 python while 循环算法来执行此操作，但数据帧可以包含数百万个索引，因此速度太慢。任何纯熊猫解决方案将不胜感激

您可以在这里通过枚举组来进行分组：

In [11]: (df['Time'].diff() > 2).cumsum()
Out[11]:
0    0
1    0
2    1
3    2
4    3
5    4
6    4
Name: Time, dtype: int64

注意：如果这是一个日期时间列而不是 2，您需要与时间增量进行比较。

In [12]: g = df.groupby((df.Time.diff() > 2).cumsum())

现在，您可以对每个组的 Coeff 列使用 idxmax（具有最大元素的索引）：

In [13]: g.Coef.idxmax()
Out[13]:
Time
0       1
1       2
2       3
3       4
4       5
Name: Coef, dtype: int64

并选择这些行：

In [14]: df.loc[g.Coef.idxmax()]  # results will vary since we've used a random df
Out[14]:
   Time   Dif      Coef
1  1201     1  0.760751
2  1233    32  0.501199
3  1555   322  0.473628
4  1650    95  0.371059
5  5561  3911  0.917556

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas 根据 diff 列形成簇的相关文章

从内存地址创建python对象（使用gi.repository）

有时我需要调用仅存在于 C 中的 gtk gobject 函数但返回一个具有 python 包装器的对象之前我使用过基于 ctypes 的解决方案效果很好现在我从 PyGtk import gtk 切换到 GObject intro
DynamodB：如何更新排序键？

该表有两个键 filename 分区键和eventTime 排序键我要更新eventTime对于某些filename Tried put item and update item 发送相同的filename与新的eventTime但这些
使用管理员权限打开cmd（Windows 10）

我有自己的 python 脚本来管理我的计算机上的 IP 地址它主要在命令行 Windows 10 中执行netsh命令您必须具有管理员权限这是我自己的计算机我是管理员运行脚本时我已经使用管理员类型的用户 Adrian 登录我无
如何在 Pandas Python 中按 id 对行进行排名

我有一个像这样的数据框 id points1 points2 1 44 53 1 76 34 1 63 66 2 23 34 2 44 56 我想要这样的输出 id points1 points2 points1 rank points2
Python：json_normalize pandas 系列给出 TypeError

我在 pandas 系列中有数万行像这样的 json 片段df json IDs lotId 1 Id 123456 date 2009 04 17 bidsCount 2 IDs lotId 2 Id 123456 date 2009 0
Python，Google Places API - 给定一组纬度/经度查找附近的地点

我有一个由商店 ID 及其纬度经度组成的数据框我想迭代该数据框并使用 google api 为每个商店 ID 查找附近的关键地点例如输入 Store ID LAT LON 1 1 222 2 222 2 2 334 4 555 3
使用 Tkinter 打开网页

因此我的应用程序需要能够打开其中的单个网页并且它必须来自互联网并且未保存特别是我想使用 Tkinter GUI 工具包因为它是我最熟悉的工具包最重要的是我希望能够在窗口中生成事件例如单击鼠标但无需实际使用鼠标有什么好的方法
会话数据库表清理

该表是否需要清除或者由 Django 自动处理 Django 不提供自动清除功能然而有一个方便的命令可以帮助您手动完成此操作 Django 文档清除会话存储 https docs djangoproject com en dev to
获取 Keras model.summary() 作为表

我在 Keras 中创建了相当大的模型我正在用 LaTeX 写一篇关于它的文章为了很好地描述 LaTeX 中的 keras 模型我想用它创建一个 LaTeX 表我可以手动实现它但我想知道是否有任何更好的方法来实现这一点我四处
如何知道python运行脚本的路径？

sys arg 0 给我 python 脚本例如 python hello py 返回 sys arg 0 的 hello py 但我需要知道 hello py 位于完整路径中的位置我怎样才能用Python做到这一点 os path a
列表推导式和 for 循环中的 Lambda 表达式[重复]

这个问题在这里已经有答案了我想要一个 lambda 列表作为一些繁重计算的缓存并注意到这一点 gt gt gt j for j in lambda i for i in range 10 9 9 9 9 9 9 9 9 9 9 Alt
我可以用关闭的文件对象做什么？

当您打开文件时它存储在一个打开的文件对象中该对象使您可以访问该文件的各种方法例如读取或写入 gt gt gt f open file0 gt gt gt f
了解 Python 2.7 中的缩进错误

在编写 python 代码时我往往会遇到很多缩进错误有时当我删除并重写该行时错误就会消失有人可以为菜鸟提供 python 中 IndentationErrors 的高级解释吗以下是我在玩 CheckIO 时收到的最近 inden
使用 python 脚本更改 shell 中的工作目录

我想实现一个用户态命令它将采用其参数之一路径并将目录更改为该目录程序完成后我希望 shell 位于该目录中所以我想实施cd命令但需要外部程序可以在 python 脚本中完成还是我必须编写 bash 包装器 Example t
在 django 中导入设置时出现奇怪的错误

我有很多项目在 ubuntu 中使用 python2 7 和 virtualenv virtualenvwrapper 工作在我的工作中一些开发人员使用 macosx 和 windows 通常我像往常一样创建项目 django admi
使用 ElementTree 在 python 中解析 xml

我对 python 很陌生我需要解析一些脏的 xml 文件这些文件需要先清理我有以下 python 代码 import arff import xml etree ElementTree import re totstring wit
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
用 pandas DataFrame 替换 mysql 数据库表中的行

Python 版本 2 7 6 熊猫版本 0 17 1 MySQLdb 版本 1 2 5 在我的数据库中 PRODUCT 我有一张桌子 XML FEED 表 XML FEED 很大数百万条记录我有一个 pandas DataFrame
SQLAlchemy 与 count、group_by 和 order_by 使用 ORM

我有几个函数需要使用 count group by 和 order by 进行一对多连接我使用 sqlalchemy select 函数生成一个查询该查询将返回一组 id 然后我对其进行迭代以对各个记录执行 ORM 选择我想知道是否有
PyObjC + Python 3.0 问题

默认情况下 Cocoa Python 应用程序使用默认的 Python 运行时版本 2 5 如何配置我的 Xcode 项目以便它使用较新的 Python 3 0 运行时我尝试用新版本替换项目中包含的Python framework 但它不

随机推荐

将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
如何在 phalcon 框架中同时连接多个数据库在模型类中同时使用两个而不仅仅是一个

在我的代码中我有两个数据库ABC and XYZ 我想在同一模型中使用两个数据库而不是 phalcon 中的解决方案是什么如何为此实现多个数据库连接 one
使用 Storyboard 时获取 NSManagedObjectContext

目标是获取当前的 NSManagedObjectContext 以便使用 Core Data 在 iOS 4 3 中我将 UINavigationController 的委托设置为 AppDelegate 如下所示在 AppDelega
未捕获的错误：找不到模块“jquery”

我在用Electron https github com atom electron制作桌面应用程序在我的应用程序中我正在加载一个外部站点 Atom 应用程序之外可以说http mydummysite index html http
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
如何在PYQT中创建按钮点击

我在 PyQT 中创建按钮单击时遇到了一些问题当我创建如下按钮的点击时这张图片无法保存 cv SetImageROI image pt1 0 pt1 1 pt2 0 pt1 0 int pt2 1 pt1 1 1 if self But
如何将 Smarty 3 包含到 Laravel 4 中？

我是 Laravel 的新手所以仍在习惯这些概念但是我有大约 10 年的使用 Smarty 的经验所以我希望利用这一点除了事实上 Blade 似乎缺乏太多我发现有用且在 Smarty 中开箱即用的功能但无论如何除了这个问题的要点之
回形针/乘客 NotIdentifiedByImageMagickError：

当我尝试上传照片时红宝石 on Rails http en wikipedia org wiki Ruby on Rails using 回形针 http github com thoughtbot paperclip在我的本地机器上它运行
PC 键盘在 Android 模拟器中无法使用 [重复]

这个问题在这里已经有答案了尽管我在创建 AVD 时选择了启用键盘输入但我无法使用 PC 键盘将字符输入到 AVD 模拟器上运行的应用程序中有人可以帮忙吗下面是我的config ini Note 可以从 AVD Manager 访问
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
如何记录来自 Akka (Java) 的所有传入消息

在 Scala 中您可以使用 LoggingReceive 包装接收函数如何通过 Java API 实现相同的目标 def receive LoggingReceive case x do something Scala API 有Lo
Oracle SQL PLS-00049：错误的绑定变量

我收到此错误这似乎是列拼写问题然而我 99 确信我拼写的所有内容都是正确的但我看不出有任何理由会出现我所犯的错误这是来源 CREATE OR REPLACE TRIGGER update qoh trigger AFTER INS
xcode 6.1 (Swift) 中的 SIGABRT 运行时错误

与最初的代码相比唯一的更改是在ViewControl swift override func viewDidLoad newMessage hidden true super viewDidLoad Do any additional s
如何通过ssh检查ubuntu服务器上是否存在php和apache

如何通过ssh检查Ubuntu服务器上apache是否安装了php和mysql 另外如果安装的话在哪个目录如果安装了其他软件包例如 lighttpd 那么它在哪里确定程序是否已安装的另一种方法是使用which命令它将显示您正在搜索
是否有任何非轮询方式来检测 DOM 元素的大小或位置何时发生变化？

很长一段时间以来我一直在寻找一种方法来检测 DOM 元素的大小或位置何时发生变化这可能是因为窗口调整了大小或者因为向该元素添加了新的子元素或者因为在该元素周围添加了新元素或者因为 CSS 规则已更改或者因为用户更改了浏览器的字体
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
Flutter 中的自动关闭对话框

我想在打开后几秒钟自动关闭对话框我找到的解决方案是调用Navigator of context pop 延迟并且有效但如果我在执行 Navigator pop 命令之前手动关闭它通过单击外部就会出现问题然后 Navigator p
vim 中的正则表达式查找和替换：向数字添加 .0

我有一个如下所示的文件 1 1 0 1 6 1 0 2 8 1 0 3 10 1 0 4 12 1 0 6 如何为所有数字添加 0 后面的数字除外我认为用正则表达式来做到这一点应该不会太难但是我的正则表达式知识太生疏了使用 VIM s
Angular 4 与 Webpack 2，动态加载脚本

我刚刚在一个项目中尝试使用 Angular 4 和 Webpack 2 我试图在 ngOnInit 期间加载一些脚本但遇到了一些问题问题1 我的 ngOnInit 中有以下代码 System import node modules jq
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555

Pandas 根据 diff 列形成簇

Pandas 根据 diff 列形成簇 的相关文章

随机推荐

热门标签

Pandas 根据 diff 列形成簇的相关文章