根据前几年的数据计算 pandas 数据帧行的百分位

2024-01-13

我有以下数据框：

datetime       JD      YEAR    VAL 
2000-01-01      1      2000    0.5
2000-01-02      2      2000    1.2
2000-01-03      3      2000    2.1
2000-01-04      4      2000    3.4 
2000-01-05      5      2000    4.6
2000-01-06      6      2000    6.8
2000-01-07      7      2000    7.2
2000-01-08      8      2000    0.2
2000-01-09      9      2000    0.9
...
2010-12-31      365    2014    4.1

第一年是 2000 年，去年是 2010 年。没有闰年（即没有对应于 2 月 29 日的行），日期时间是索引列。

我想计算一个新的数据帧，从 2010 年 1 月 1 日延伸到 2010 年 12 月 31 日。我希望它包含一个列，用于计算由 10 个值组成的数组中 2010 年 1 月 1 日值 (VAL) 的百分位数（2000 年 1 月 1 日），2001 年 1 月 1 日...2009 年 1 月 1 日）。同样，2010 年 1 月 2 日与往年 1 月 2 日进行比较......

lyr = df.YEAR.max() # last year i.e. 2010
cdf = df[df.YEAR == lyr]# Latest year dataframe
pdf = df[df.index.year < lyr] # Previous years dataframe

pdf.groupby('JD')['VAL']
stats.percentileofscore(pdf['VAL'], cdf['VAL'])

但是，我不确定如何让代码工作。 groupby 仅返回组，而我需要一个值列表。

设置一个小样本数据框：

np.random.seed(1234)
df = pd.DataFrame({ 'jd':  np.tile([1,2],3),
                    'yr':  np.repeat([2008,2009,2010],2),
                    'val': np.random.randn(6) })

然后就只有一行：

df['pctile'] = df.groupby('jd')['val'].rank(pct=True)

这是输出，排序为sort_values(['jd','val'])

   jd       val    yr    pctile
4   1 -0.720589  2010  0.333333
0   1  0.471435  2008  0.666667
2   1  1.432707  2009  1.000000
1   2 -1.190976  2008  0.333333
3   2 -0.312652  2009  0.666667
5   2  0.887163  2010  1.000000

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

根据前几年的数据计算 pandas 数据帧行的百分位的相关文章

DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql

随机推荐

libcurl 带有 x86-64-w64-mingw32-g++ 未定义的引用。 g++ 工作正常

我正在尝试使用 libcurl 和 Linux 为 Windows 交叉编译简单的 C 程序我正在使用以下代码 x86 64 w64 mingw32 g DCURL STATICLIB curl example cpp o e lcurl
Smarty 嵌套 for-each 与数组

我在智能 for each 循环方面遇到了一些麻烦这是我的代码 this example will print out all the values of the custid array foreach from order info
如何在MS Word中以编程方式设置文本样式？

情况我正在处理 MS Word 文档的内容我正在根据某些规则改变某些单词的颜色每个 KeyPress 事件都会发生单词着色 Problem 当用户输入满足我的规则的单词时输入的单词会变成彩色并感染未来的文本将在彩色文本之后立即输入
打印时在 C 中分隔值的最佳/常见做法

我尝试了搜索功能但只找到了有关的问题reading在逗号空格分隔的文件中然而我的问题是你通常如何处理这个问题假设我有一个值的列表数组例如 1 2 3 4 并且想要使用分隔符打印它们最简单的版本是这样的 include
Visual Studio 2017 控制台项目模板丢失

是的我尝试过 devenv install 但没有帮助所以我在创建项目时没有 Console C Project 选项如图所示 https i stack imgur com gaKyI png目前我已经安装了 Windows 基本
陷入两次无限制语法违规之中

这是我原来的代码 const buildTableContent settings gt const entries for const key in settings for const subkey in env key setting
如何在Python中找到二维数组中某个值的索引？

我需要弄清楚如何找到 2d numpy 数组中某个值的所有索引例如我有以下二维数组 1 1 0 0 0 0 1 1 0 0 0 0 我需要找到所有 1 和 0 的索引 1 0 0 0 1 1 2 1 3 0 0 2 0 3 1 0 1
如何获得一个数字的前两位数字？

我想用Python检查一个数字的前两位像这样的事情 for i in range 1000 if first two digits of i 15 print 15 elif first two digits of i 16 print
如何查找 SVN 存储库中具有给定 URL 外部的所有条目 [重复]

这个问题在这里已经有答案了可能的重复递归列出所有 svn externals https stackoverflow com questions 681833 list all svnexternals recursively 我需要移
按相反顺序对 Set 进行排序

对于新手问题表示歉意但是获得的正确方法是什么Set say LinkedHashSet 相反的顺序为了Collection有吗Collections reverse Collection c 但是如何才能做到这一点Set具有有序元素例
在 Android 中我应该选择 Boost Asio 还是 Async Socket 线程？

我正在为 Android 开发一个基于网络的 UI 应用程序它将执行以下功能需要与基于 n w 的嵌入式设备一次 gt 100 个上运行的 TCP 服务器进行通信定期轮询这些设备以获取更新的信息从这些设备发送和接收信息所有上述
如何使用 ffmpeg 从使用时间戳命名的帧创建视频

我有一个充满框架的文件夹其名称中的时间戳采用以下格式 im H M S MS png im 08 05 09 007324 png im 08 05 09 532857 png im 08 05 10 059340 png im 08 0
用于检测任何（所有）浏览器的浏览器后退按钮单击的代码[重复]

这个问题在这里已经有答案了可能的重复防止使用后退按钮在 IE 中 https stackoverflow com questions 54539 prevent use of the back button in ie 禁用浏览器上的
如何覆盖“需要一个值”。在 ASP.NET MVC 视图中验证日期时间格式时？

我正在检查 mvc 视图中的日期时间字段的日期时间格式如下所示 If contactToValidate LastUpdated Nothing OrElse Not IsDate contactToValidate LastUpdate
可以在没有聚合函数的情况下使用 dcast 吗？ [复制]

这个问题在这里已经有答案了可能的重复这个 R 重塑应该很简单但是 https stackoverflow com questions 12829995 this r reshaping should be simple but dca
重置 UICollectionView 上的滚动

我有一个水平的UICollectionView效果很好并且可以滚动当我点击一个项目时我会更新我的数据并调用reloadData 这有效并且新数据显示在UICollectionView 问题是滚动位置没有改变它仍然查看最后一个位置我想
Swift：在 CFArray 中提取/向下转换基于 CFType 的 CoreText 类型

我正在尝试移植的元素核心动画文本 https developer apple com library mac samplecode CoreAnimationText Introduction Intro html示例到 Swift 但我不
angularjs：尝试获取过滤数据时$filter未定义

自从几天以来我一直在尝试让它运行通过以下代码片段我想过滤一些人并在 onchange 被触发后接收已过滤的对象在这里查看此代码 http jsbin com isojof 1 http jsbin com isojof 1 任何想
Python 中的相等性检查差异

假设我们希望当 a 和 b 都等于 5 时执行某个代码块那么我们可以这样写 if a 5 and b 5 Do something 但几天前我不由自主地写了一个类似的条件检查 if a b and b 5 Do something 这让
根据前几年的数据计算 pandas 数据帧行的百分位

我有以下数据框 datetime JD YEAR VAL 2000 01 01 1 2000 0 5 2000 01 02 2 2000 1 2 2000 01 03 3 2000 2 1 2000 01 04 4 2000 3 4 200

根据前几年的数据计算 pandas 数据帧行的百分位

根据前几年的数据计算 pandas 数据帧行的百分位 的相关文章

随机推荐

热门标签

根据前几年的数据计算 pandas 数据帧行的百分位的相关文章