如何使用 Pandas 的时间戳按小时对数据帧进行分组

2024-01-04

我有以下使用时间戳索引的数据帧结构：

    neg neu norm    pol pos date
time                        
1520353341  0.000   1.000   0.0000  0.000000    0.000   
1520353342  0.121   0.879   -0.2960 0.347851    0.000   
1520353342  0.217   0.783   -0.6124 0.465833    0.000

我从时间戳创建一个日期：

data_frame['date'] = [datetime.datetime.fromtimestamp(d) for d in data_frame.time]

Result:

    neg neu norm    pol pos date
time                        
1520353341  0.000   1.000   0.0000  0.000000    0.000   2018-03-06 10:22:21
1520353342  0.121   0.879   -0.2960 0.347851    0.000   2018-03-06 10:22:22
1520353342  0.217   0.783   -0.6124 0.465833    0.000   2018-03-06 10:22:22

我想要按小时分组，同时得到mean for 除时间戳之外的所有值，那应该是小组开始的时间。所以这是我想要存档的结果：

    neg neu norm    pol pos
time                    
1520352000  0.027989    0.893233    0.122535    0.221079    0.078779
1520355600  0.028861    0.899321    0.103698    0.209353    0.071811

到目前为止我最接近的是这个answer https://stackoverflow.com/questions/11391969/how-to-group-pandas-dataframe-entries-by-date-in-a-non-unique-column:

data = data.groupby(data.date.dt.hour).mean()

Results:

    neg neu norm    pol pos
date                    
0   0.027989    0.893233    0.122535    0.221079    0.078779
1   0.028861    0.899321    0.103698    0.209353    0.071811

但我不知道如何保留考虑到 grouby 开始时间的时间戳。

我偶然发现了这颗宝石，pd.DataFrame.resample https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.resample.html，在我发布了我的逐小时解决方案之后。

# Construct example dataframe
times = pd.date_range('1/1/2018', periods=5, freq='25min')
values = [4,8,3,4,1]
df = pd.DataFrame({'val':values}, index=times)

# Resample by hour and calculate medians
df.resample('H').median()

或者你可以使用groupby https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html with Grouper https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Grouper.html如果您不想将时间作为索引：

df = pd.DataFrame({'val':values, 'times':times})
df.groupby(pd.Grouper(level='times', freq='H')).median()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Pandas 的时间戳按小时对数据帧进行分组的相关文章

多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是

随机推荐

如何测量 SQL 填充因子值

通常当我在表上创建索引时我通常会猜测Fill Factor应基于对表的使用方式多次读取或多次写入的有根据的猜测有没有更科学的方法来判断更准确Fill Factor value 您可以尝试运行大量实际操作并查看 IO 队列以了解不同
Visual Studio 2008 中的 .NET 2.0 安装项目

我开发了一个针对 net 2 0 的 win forms 应用程序所有这些都在 Visual Studio 2008 sp1 中我这样做是因为我并不真正需要应用程序中的 3 0 功能我不希望客户在可以安装半大型框架的情况下必须安装一个
Kotlin：Kotlin 脚本 (.kts) 无法使用常规代码？

在我的库的代码库中我有这个包函数 fun sayHello println Hello there 该函数在包中定义org jire pomade 我想在一个 kts像这样的文件 sayHello 不幸的是我似乎无法让除了 Kotlin
在从 VSTS 进行新部署之前删除 Azure 上的文件和文件夹

作为 VSTS 中构建过程的一部分我想在新部署之前从我的 Azure 站点中删除所有文件和文件夹除了少数几个我的猜测是使用 Azure Powershell 脚本将是一个好主意我更喜欢制作内联脚本我使用 Azure 资源管理器作
如何使用 useEffect() 更改 React-Hook-Form defaultValue？

我正在创建一个页面供用户使用 React Hook Form 更新个人数据加载分页后我使用useEffect获取用户当前的个人数据并将其设置为表单的默认值我将获取的值放入defaultValue of
libvlc_new 始终返回 NULL

我尝试做教程示例 https wiki videolan org LibVLC Tutorial libvlc 的工作我通过安装了vlc SDKsudo apt install libvlc dev并链接到它 lvlc 编译和链接完成时没
在移动 Safari 中忽略 Overflow-x 值

我们将body和可滚动元素上的overflow x值设置为隐藏但移动Safari会忽略这些值在桌面上溢出值工作正常相关代码 body overflow x hidden width 320px height 100 min heig
如何修复状态为“已拒绝”的 dig 命令？

我需要帮助修复被拒绝的状态我看了一下named conf一切看起来都很好我什至改变了allow query to any 它曾经是localhost dig xxx com ns1 xxx com lt lt gt gt DiG 9 8
C++中的时差

有谁知道如何计算 C 中的时间差以毫秒为单位我用了difftime http linux die net man 3 difftime但它对于我想要测量的东西来说没有足够的精度我知道这是一个老问题但 C 0x 有一个更新的答案有一
如何避免在 GEKKO 中创建许多二进制切换变量

我通过最小化数千个方程来求解 14 个变量IMODE 3 in GEKKO 每个方程都是真实响应与 P 样条模型预测之间的平方误差 i e 惩罚 B 样条 eq i m Minimize y true i spline coeffs kno
Python：如何创建函数？例如f(x) = ax^2

我想要对函数进行某种引用但我不知道是否需要使用def f x or a lambda某种例如我想print f 3 并让它输出9a 或者这不是 python 的工作原理第二个问题假设我有一个工作函数我如何返回degree of i
Excel VBA 在 Windows 10 中回答 Internet Explorer 11 下载提示？

我正在尝试自动下载 csv 文件http www nasdaqomxnordic com http www nasdaqomxnordic com使用 Excel 2010 VBA 和 Internet Explorer 如何使用保存自
如何消除 iPad 应用程序主窗口上的圆角？

我见过一些 iPad 应用程序填满屏幕例如 Stanza 或在状态栏下方形成方形角例如 iPod 播放器顶部有方形角底部看不出来有人知道这是怎么做到的吗默认情况下顶层 UIWindow 似乎应用了一个剪切区域因为我放置在该窗口
显示网络浏览器设置

使用不同的网络浏览器及其版本号字符串以及无数的配置列表确实很痛苦我想知道是否有人想出了一个网页可以将浏览器设置转储到浏览器以便可以保存并转发给开发人员 Thanks 像这样的东西吗 http mybrowserinfo com det
预期是二维数组，却得到一维数组，而是错误

我得到的错误为 ValueError 需要 2D 数组却得到 1D 数组 array 45000 50000 60000 80000 110000 150000 200000 300000 500000 1000000 如果数据具有单个特
委托、Lambda 和 LINQ，天哪！

作为一名相当初级的开发人员我遇到了一个突出我经验不足和知识漏洞的问题如果这里的序言太长请原谅我发现自己参与的一个项目需要学习许多对我而言新技术其中包括 LINQ 用于该项目的 OBJECTS 和 XML 等到目前为止我读到的
如何获取使用“文本数字”的字体的升序或降序高度

我对文本数字有疑问参见维基百科 http en wikipedia org wiki Text figures 在使用以下命令创建的 PDF 文档中itextsharp 基线和数字最低点之间的距离例如9 与字体的正常下降高度不同使用下
验证多态关联模型中的范围唯一性

是的所以我有一个多态关联允许收藏不同的对象类型所以一个人可以喜欢一个产品一个人或者其他什么我想要做的是防止有人使用验证收藏夹模型中的唯一性来复制收藏夹 class Favorite lt ActiveRecord Base be
XMLHttpRequest 与 HttpRequest

有谁知道什么是XMLHttpRequest使网页能够执行普通网页无法完成的操作HttpRequest XMLHttpRequest http en wikipedia org wiki XMLHttpRequest是一个标准的 javas
如何使用 Pandas 的时间戳按小时对数据帧进行分组

我有以下使用时间戳索引的数据帧结构 neg neu norm pol pos date time 1520353341 0 000 1 000 0 0000 0 000000 0 000 1520353342 0 121 0 879 0 2

如何使用 Pandas 的时间戳按小时对数据帧进行分组

如何使用 Pandas 的时间戳按小时对数据帧进行分组 的相关文章

随机推荐

热门标签

如何使用 Pandas 的时间戳按小时对数据帧进行分组的相关文章