通过日期时间列表根据日期列更新 pandas 数据框列

2024-04-24

老问题 https://stackoverflow.com/q/73168797/15975987

详情请参考上述问题。我需要添加 0.5 个工作日business_days第二个列表中不在第一个列表中的每个假期的列。这是一个名为 df 的示例输入predicted_df:

PredictionTargetDateEOM business_days
0       2022-06-30      22
1       2022-06-30      22
2       2022-06-30      22
3       2022-06-30      22
4       2022-06-30      22
        ... ... ...
172422  2022-11-30      21
172423  2022-11-30      21
172424  2022-11-30      21
172425  2022-11-30      21
172426  2022-11-30      21

PredictionTargetDateEOM 正是该月的最后一天。business_days指该月的工作日数，并且该月内的所有行都应该相同。这里有两个假期列表。对于第二个列表中存在但第一个列表中不存在的假期，business_days对于该假期月份出现的数据帧的每一行，列应添加 +0.5。

rocket_holiday = ["New Year's Day", "Martin Luther King Jr. Day", "Memorial Day", "Independence Day",
                 "Labor Day", "Thanksgiving", "Christmas Day"]
rocket_holiday_including_observed = rocket_holiday + [item + ' (Observed)' for item in rocket_holiday]
print(rocket_holiday_including_observed)
["New Year's Day",
 'Martin Luther King Jr. Day',
 'Memorial Day',
 'Independence Day',
 'Labor Day',
 'Thanksgiving',
 'Christmas Day',
 "New Year's Day (Observed)",
 'Martin Luther King Jr. Day (Observed)',
 'Memorial Day (Observed)',
 'Independence Day (Observed)',
 'Labor Day (Observed)',
 'Thanksgiving (Observed)',
 'Christmas Day (Observed)']

banker_hols = [i for i in holidays.US(years = 2022).values()]
print(banker_hols)
2022-01-01 New Year's Day
2022-01-17 Martin Luther King Jr. Day
2022-02-21 Washington's Birthday
2022-05-30 Memorial Day
2022-06-19 Juneteenth National Independence Day
2022-06-20 Juneteenth National Independence Day (Observed)
2022-07-04 Independence Day
2022-09-05 Labor Day
2022-10-10 Columbus Day
2022-11-11 Veterans Day
2022-11-24 Thanksgiving
2022-12-25 Christmas Day
2022-12-26 Christmas Day (Observed)

第二个列表实际上是通过以下方式从字典派生的：

import holidays
for name, date in holidays.US(years=2022).items():
    print(name, date)

原始版本看起来像这样：

{datetime.date(2022, 1, 1): "New Year's Day", datetime.date(2022, 1, 17): 'Martin Luther King Jr. Day', datetime.date(2022, 2, 21): "Washington's Birthday", datetime.date(2022, 5, 30): 'Memorial Day', datetime.date(2022, 6, 19): 'Juneteenth National Independence Day', datetime.date(2022, 6, 20): 'Juneteenth National Independence Day (Observed)', datetime.date(2022, 7, 4): 'Independence Day', datetime.date(2022, 9, 5): 'Labor Day', datetime.date(2022, 10, 10): 'Columbus Day', datetime.date(2022, 11, 11): 'Veterans Day', datetime.date(2022, 11, 24): 'Thanksgiving', datetime.date(2022, 12, 25): 'Christmas Day', datetime.date(2022, 12, 26): 'Christmas Day (Observed)'}

以下是显示所需结果的示例输出：

PredictionTargetDateEOM business_days
0       2022-06-30      22.5
1       2022-06-30      22.5
2       2022-06-30      22.5
3       2022-06-30      22.5
4       2022-06-30      22.5
        ... ... ...
172422  2022-11-30      21.5
172423  2022-11-30      21.5
172424  2022-11-30      21.5
172425  2022-11-30      21.5
172426  2022-11-30      21.5

正如您所看到的，由于 Juneteenth 和 Veterans Day 位于第二个列表中，而不是第一个列表中，因此我会为包含 6 月和 11 月作为月份的每一行的“business_days”列添加 0.5 天。但是，对于其他月份（例如 7 月或 1 月），两个列表之间共享假期，business_days这些月份的列应保持不变。最后，这种方法对于回填前几年的历史数据也应该是稳健的。我已经尝试过以下方法，但它不能按需要执行。它要么从数据框中删除整个月份，要么对于未删除的月份，不改变business_days我需要的几个月的元素。

main_list = list(set(banker_hols) - set(rocket_holiday_including_observed))
print(main_list)

['Columbus Day',
 'Juneteenth National Independence Day',
 "Washington's Birthday",
 'Juneteenth National Independence Day (Observed)',
 'Veterans Day']

result = []
for key, value in holidays.US(years = 2022).items():
    if value in main_list:
        result.append(key)
print(result)

[datetime.date(2022, 2, 21),
 datetime.date(2022, 6, 19),
 datetime.date(2022, 6, 20),
 datetime.date(2022, 10, 10),
 datetime.date(2022, 11, 11)]

所以我有几个月需要添加 0.5 个工作日，但我不知道如何更新business_days数据框中属于这些月份的所有行的列。

EDIT问题在这里解决：如果满足行条件，则将数量添加到 pandas 列 https://stackoverflow.com/q/73197589/15975987

我的答案包含了关键.loc()链接问题中显示的功能：

#Identify holidays in banker list not in rocket list
banker_hols = [i for i in holidays.US(years = 2022).values()]
hol_diffs = list(set(banker_hols) - set(rocket_holiday_including_observed))

#Extract dates of those holidays
dates_of_hols = []
for key, value in holidays.US(years = 2022).items():
    if value in hol_diffs:
        dates_of_hols.append(key)

#Extract just the months of those holidays
months = []
for item in dates_of_hols:
    months.append(item.month)
months = list(set(months))

#Add 0.5 to business_days for those months
predicted_df.loc[predicted_df['PredictionTargetDateEOM'].dt.month.isin(months), 'business_days'] += 0.5

我们只需要相关假期的日期：

relevant_holidays = {
    x: y for x, y in holidays.US(years=2022).items() 
    if y not in rocket_holiday_including_observed
}

我们使用 pandas magic 获取相应的月末日期：

holiday_month_end = pd.to_datetime(
    list(relevant_holidays.keys())
).to_period("M").to_timestamp("M")

DatetimeIndex(['2022-02-28', '2022-06-30', '2022-06-30', '2022-10-31',
               '2022-11-30'],
              dtype='datetime64[ns]', freq=None)

在加入之前，我们计算每个月的数量并乘以 0.5：

to_add = holiday_month_end.value_counts() * 0.5

2022-06-30    1.0
2022-02-28    0.5
2022-10-31    0.5
2022-11-30    0.5
dtype: float64

该索引现在是唯一的。要将其与数据框对齐，请使用reindex:

predicted_df["business_days"] = predicted_df["business_days"] + to_add.reindex(
    pd.to_datetime(predicted_df["PredictionTargetDateEOM"])
).fillna(0).values

The fillna是必要的，因为to_add没有每个月的条目。这values有必要删除索引，否则+会尝试匹配索引值而不是保持顺序。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

通过日期时间列表根据日期列更新 pandas 数据框列的相关文章

为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

在Python中解析.iso文件[重复]

这个问题在这里已经有答案了我想用 python 解析 iso 文件我想从 iso 获取信息和数据例如有一个 iso 文件其名称为 xyz iso 但实际上它是一个 ubuntu 映像并且包含 Readme txt deb pacg
jQuery .eq(x) 在 IE 中返回与 FF/Chrome 中不同的元素

我正在使用 eq 方法来选择已知元素的特定子元素 IE 和 Chrome FF 中的元素索引似乎不同因为 eq 2 根据浏览器返回不同的值我正在寻找的元素在 FF Chrome 中显示为 eq 2 但在 IE 中显示为 eq 3 例如
未加载 MonetaryAmountsSingletonSpi

pom xml中添加依赖
转储中的维基百科类别层次结构

我想使用维基百科的转储为其类别构建一个层次结构我已经下载了主转储 enwiki latest pages articles 和类别 SQL 转储 enwiki latest category 但我找不到层次结构信息例如 SQL 类别的转
useState 钩子，setState 函数。访问先前的状态值

这两个相等吗如果不是哪个最好为什么 const count setCount useState initialCount
cxApi.chooseVariation() 始终返回 0

我的网站是一个单页网络应用程序我正在使用我的实验 ID 加载实验代码加载完所有内容后在显示页面时我通过调用执行以下操作的函数来选择正确的模板 ga set expId experiment id var variation cxAp
将 AdMob 插件添加到 Ionic 项目时出现 Xcode 错误

我有一个 Ionic 3 项目它在 Ionic DevApp 和 Xcode 上正常运行但是当我添加 AdMob Plugin 时它正常运行 Ionic DevApp 但它不在 Xcode 上运行我尝试了模拟器和真实设备但我都遇到
将二进制文件读入结构体

我正在尝试使用 C 读取二进制数据我拥有有关我想要读取的文件中的数据布局的所有信息我能够逐块读取数据即将前 40 个字节的数据转换为字符串然后获取接下来的 40 个字节由于数据至少有三个略有不同的版本我想将数据直接读入结构中
为什么我应该将 IHttpContextAccessor 作为单例注入

在我见过的所有例子中IHttpContextAccessor注入时它被设置为单例例子如何在ASP NET Core 1 0中的DI中的Startup类中添加IHttpContextAccessor https stackoverflo
使用 AppleScript 和 Automator 在带有键盘的 Mac 上显示上下文菜单

我正在尝试找到一种方法在使用 Yosemite 的 Mac 上的 Finder 中调出上下文菜单without触摸鼠标触摸板 A context menu 经过对此问题的广泛研究唯一可能的途径似乎是使用 AppleScript 和 A
从 Webview 获取源代码（VB for Metro）

我正在制作一个 Windows Phone 的应用程序我可以从名为 DebWeb 的网络视图获取特定班级的 ClassRoom DebWeb 加载所有教室所在的网站但我想让我的应用程序搜索只是我的班级之前我制作了一个具有几乎相同目标的
如何传递具有动态参考 angular2 的元素？

我里面有元素ngFor环形每个元素都像这样得到引用 f floor b 如你所见floor是一个变量我想将这些元素传递给函数代码
Findbugs 和 Maven 3.x

有没有人设法让 findbugs 2 3 1 2 3 2 SNAPSHOT 或 2 4 SNAPSHOT 与 Maven 3 x 项目一起使用我总是最终得到错误未能执行目标 org codehaus mojo findbugs mav
因为它违反了以下内容安全策略指令：“style-src 'self'”

我有一个带有此标题的网页这是一个非交互式页面只有 twitter bootstrap js
从 takeOrdered 返回一个 RDD，而不是一个列表

我正在使用 pyspark 进行一些数据清理一个非常常见的操作是获取文件的一小部分并将其导出以供检查 self spark context textFile old filepath filename takeOrdered 100 sa
强制 TeamCity 基于特定代理进行构建

是否可以在不禁用所有其他连接的代理的情况下强制 TeamCity 在特定代理计算机上构建 Under Build Configuration Settings go to Agent Requirements并设置一个Explicit Re
在 PHP 中，某些浮点值的总和应为零，但并非如此 [重复]

这个问题在这里已经有答案了可能的重复浮点不准确示例 https stackoverflow com questions 2100490 floating point inaccuracy examples 它将显示 2 30926389
Android RecyclerView 与 GridLayoutManager 使项目跨越多行

I have a collection of photos and I m using a RecyclerView to display them I want to have the first element in my Recycl
简单的程序崩溃

所以我已经使用 MinGW GCC 版本 4 4 有一段时间了并决定是时候升级了我去MinGW网站下载了最新版本的GCC 4 7 0 删除以前的版本并安装最新版本后即使是最简单的程序也会崩溃例如如果我编译这个程序 include
通过日期时间列表根据日期列更新 pandas 数据框列

老问题 https stackoverflow com q 73168797 15975987 详情请参考上述问题我需要添加 0 5 个工作日business days第二个列表中不在第一个列表中的每个假期的列这是一个名为 df 的示例

通过日期时间列表根据日期列更新 pandas 数据框列

通过日期时间列表根据日期列更新 pandas 数据框列 的相关文章

随机推荐

热门标签

通过日期时间列表根据日期列更新 pandas 数据框列的相关文章