使用 csv 读取将值添加到 DASK 数据帧导入的列

2023-11-29

假设使用以下命令将五个文件导入到 DASKcsv_read。为此，我使用以下代码：

import dask.dataframe as dd
data = dd.read_csv(final_file_list_msg, header = None)

每个文件有十列。我想将 1 添加到文件 1 的第一列，将 2 添加到文件 2 的第一列，将 3 添加到文件 3 的第一列，依此类推。

假设您有几个遵循此方案的文件：

dummy/
├── file01.csv
├── file02.csv
├── file03.csv

首先我们通过以下方式创建它们

import os
import pandas as pd
import numpy as np
import dask.dataframe as dd
from dask import delayed

fldr = "dummy"

if not os.path.exists(fldr):
    os.mkdir(fldr)

for i in range(10):
    df = pd.DataFrame(np.random.rand(5,3))
    df.to_csv("{}/file{:02}.csv".format(fldr,i+1),
              index=False)

创建的文件列表是fns = sorted(os.listdir(fldr))

然后我们编写一个给出路径的函数fn:

读取文件
取数字XXfileXX.csv
insert int(XX)在第一列

That is

def addCol(fn):
    df = pd.read_csv(os.path.join(fldr, fn))
    first = int(fn.split(".")[0][-2:])
    df.insert(0, "first", first)
    return df

我们希望这种乐趣成为delayed我们可以使用装饰器来实现@delayed或将函数包装为delayed。因此，为了获得所需的输出，我们应该（相应地）触发

ddf = dd.from_delayed([addCol(fn) for fn in fns])
ddf = dd.from_delayed([delayed(addCol)(fn) for fn in fns])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

DataFrame

Dask

使用 csv 读取将值添加到 DASK 数据帧导入的列的相关文章

如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

如何更改模拟导入的行为？

我对 Jest 中的模拟以及如何对实现进行单元测试感到非常困惑问题是我想嘲笑不同的预期行为有什么办法可以实现这一点吗因为导入只能位于文件的顶部并且为了能够模拟某些内容必须在导入之前声明它我还尝试传递一个本地函数这样我就可以覆盖
嵌套 FormGroup 的 FormControl 是 ng-valid，尽管 FromGroup 是 ng-invalid

我有一个名为等级的嵌套表单组尽管嵌套表单组 grades 应用了 ng invalid 类但子表单控件确实应用了 ng valid 类为什么失效没有从嵌套表单继承到其控件 this schoolyearForm this form
无法确定关联的主体

在这种关联中我收到错误无法确定类型 Foo 和 Bar 之间关联的主要端必须使用关系流畅 API 或数据注释显式配置此关联的主要端 public class Foo public int Id get set public int M
无法在 Visual Studio 代码中启动 C++ 调试器

我刚刚从 Netbeans 切换到 Visual Studio 代码并且无法调试 C 错误是Unable to start debugging Launch options string provided by the project s
从 JSON 获取数据到 D3.js

I tried d bubbledata values value or d bubbledata values 0 value 但没有得到结果我怎样才能获得所有有价值的属性我的代码是 var circles svg selectAll
使用 NSURLSession 时 UI 被阻止

我正在开发一个需要登录表单的项目使用网络服务进行身份验证我连接到服务器没有问题但似乎 NSURLSession 阻止了我的用户界面经过大量调试后我真的不知道为什么为了简单起见这是我的简短代码 NSMutableURLReques
如何将 PowerShell 与 Visual Studio 命令提示符结合使用？

我已经使用 Beta 2 一段时间了运行 Visual Studio 2010 命令提示符时必须输入 cmd exe 这让我抓狂我曾经有一个美好的vsvars2008 ps1Visual Studio 2008 的脚本有吗vsvars
如何从 C++ 字符串中删除所有非字母数字字符？

我正在编写一个软件它要求我使用 libcurl 处理从网页获取的数据当我获取数据时由于某种原因其中有额外的换行符我需要找到一种只允许字母数字和空格的方法并删除其他所有内容包括换行符有什么简单的方法可以做到这一点吗谢谢编
R应用具有多个参数的函数

我有一个函数f var1 var2 在 R 中假设我们设置var2 1现在我想应用这个函数f 到列表L 基本上我想得到一个带有输出的新列表 L f L 1 1 f L 2 1 f L n 1 我该如何做到这一点apply mapply o
如何使用 jQuery 将表格的一行滚动到视图 (element.scrollintoView) 中？

我使用 jQuery 动态地将行添加到表中这table是在一个里面div其中有overflow auto从而导致垂直滚动条我现在想自动滚动我的容器div到最后一排 jQuery 版本是什么tr scrollintoView 如果您需要滚
更改 .NET MAUI 应用程序中的汉堡菜单图标

如何更改 NET MAUI 应用程序中的汉堡菜单图标我已经更新了所有图标的样式我想将汉堡菜单图标更改为自定义PNG 我尝试了以下内容Styles xaml但这似乎不是要编辑的正确属性 FlyoutPage的解决方案的飞出FlyoutP
将数组转换为 JSON

我需要引入 csv 文档并将其转换为 JSON 到目前为止我已经能够将其转换为数组并且我正在尝试从该数组构建一个 JSON 对象下面是构建 JSON 的 JavaScript 但它不在我需要的结构中下面是所需结构的示例 var js
如何在 JavaScript 中获取之前的 URL？

JavaScript 有没有办法获取之前的 URL 像这样的东西 alert previous url is window history previous href 有这样的事吗或者我应该把它存储在 cookie 中我只需要知道这样
更改字符指针变量中的字符[重复]

这个问题在这里已经有答案了我正在尝试更改 char 指针变量指向的字符 char test3 mutable printf Expected mutable Result s n test3 testt test3 printf Expe
plot3d - 如何更改框颜色并删除轴刻度

我正在尝试对默认的plot3d 对象进行一些视觉修改具体来说我想将灯箱颜色作为背景仅在框中而不是整个调色板中并删除轴刻度线轴上的 x y z 值会分散注意力我花了无数的时间在谷歌上搜索要改变的选项但我一生都无法弄清楚这一点
未找到中央目录条目（ZipException）

我正在尝试将 zip 文件下载到 SD 卡我正确下载了它但是当我打开下载的文件使用 ZipFile 时我收到此 ZipException 未找到中央目录条目互联网文件没问题 SD 复制文件没问题从 PC 打开并正确显示文件但由
连接父表和子表的最佳方式

我有父表A A有几个子表例如B C D E F G子表不相互链接它们仅链接到A A有钥匙Id它在所有子表中用作外键连接这些表的最佳方式是什么以便我可以为此创建单个视图由于父表中的某些表可能有子行因此您必须使用 LEFT OUTE
在使用变量调用的函数中实现 mutate

我想使用不同的变量多次调用一个函数每次都为数据框中的新变量设置一个值这是我失败的尝试我很感激任何帮助 dat lt tibble score1 runif 10 score2 score1 2 call mutate with var
WCF：序列化为数组的通用列表

因此我正在使用 WCF 和我的服务返回包含通用列表的类型 WCF 当前正在通过网络将它们转换为数组有没有办法配置 WCF 之后将它们转换回列表我知道有一种方法可以在添加服务引用时单击高级但我正在配置文件或类似的内容中寻找解决方案
使用 csv 读取将值添加到 DASK 数据帧导入的列

假设使用以下命令将五个文件导入到 DASKcsv read 为此我使用以下代码 import dask dataframe as dd data dd read csv final file list msg header None 每个

使用 csv 读取将值添加到 DASK 数据帧导入的列

使用 csv 读取将值添加到 DASK 数据帧导入的列 的相关文章

随机推荐

热门标签

使用 csv 读取将值添加到 DASK 数据帧导入的列的相关文章