我应该如何优化这个文件系统 I/O 绑定程序？

2024-05-05

我有一个 python 程序，它执行如下操作：

从 csv 文件中读取一行。
对其进行一些变换。
将其分解为实际的行，因为它们将被写入数据库。
将这些行写入单独的 csv 文件。
除非文件已完全读取，否则返回步骤 1。
运行 SQL*Loader 并将这些文件加载到数据库中。

第 6 步实际上并不需要太多时间。似乎第四步占用了大部分时间。在大多数情况下，我想对此进行优化，以处理在具有某种 RAID 设置的四核服务器上运行的一组数以百万计的记录。

我必须解决这个问题有几个想法：

从第一步读取整个文件（或至少以非常大的块读取）并将文件作为整体或以非常大的块写入磁盘。这个想法是硬盘在文件之间来回花费的时间更少。这会做缓冲不会做的事情吗？
将步骤 1、2&3 和 4 并行化为单独的进程。这将使步骤 1、2 和 3 不必等待步骤 4 完成。
将加载文件分成单独的块并并行处理它们。不需要按任何顺序处理行。这可能需要以某种方式与步骤 2 结合起来。

当然，这个问题的正确答案是“通过测试做你认为最快的事情”。然而，我主要是想知道我应该首先把时间花在哪里。在这些问题上有更多经验的人有什么建议吗？

穷人的地图缩减：

Use split http://www.gnu.org/manual/gawk/html_node/Split-Program.html将文件分成与 CPU 数量一样多的块。

Use batch http://linux.about.com/library/cmd/blcmdl1_batch.htm并行运行你的咀嚼器。

Use cat http://www.gnu.org/software/coreutils/manual/html_node/cat-invocation.html#cat-invocation连接结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

Optimization

fileio

我应该如何优化这个文件系统 I/O 绑定程序？的相关文章

比较运算符性能 <= 与 !=

让我们首先声明代码可读性胜过微优化我们应该将其留给编译器这只是一个奇怪的案例具体细节似乎与一般建议相比很有趣因此我在搞素数生成器函数并提出了一种奇怪的行为其中人们建议效率最高实际上效率最低而 C private stat
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

使用另一个索引数组正确索引多维 Numpy 数组

我正在尝试索引多维数组P与另一个数组indices 它指定我想要沿最后一个轴的哪个元素如下所示 import numpy as np M N 20 10 P np random rand M N 2 9 index into the la
sqlite 3“SQL 错误‘内存不足’(7)”objc

嗨有人可以指出我做错了什么吗错误是这样的 SQL error out of memory 7 NSArray RecipeInfo NSMutableArray retval NSMutableArray alloc init NSSt
WebGL：enablevertexattribarray索引超出范围

这是我的顶点和片段着色器
PHP：如何删除“[”和“]”之间的字符串

我需要删除内的字符串包括本身我尝试从该网站寻找解决方案我有一个线索我应该尝试使用 preg replace 进行一些操作但它对我来说似乎太专业了例如 gallery ids 92 93 94 95 96 97 98 99 1
通过易失性引用/指针访问声明的非易失性对象是否会为所述访问赋予易失性规则？

这将是一篇很长的文章为了将其置于上下文中并提供尽可能多的信息我必须浏览各种链接和引用这通常是我们进入 C C 标准兔子洞的唯一方法如果您对这篇文章有更好的引用或任何其他改进请告诉我但先总结一下你可以责怪 zwol对我来说发布这
如何对 MySQL 数据库中的 ENUM 列进行排序？

I have colorMySQL 表中的列类型为ENUM RED YELLOW MY COLOR BLACK 还有另一个name列的类型是VARCHAR 30 我想按以下顺序获取所有表行 YELLOW首先行排序依据name RED最后一
将numpy字符串数组转换为int数组[重复]

这个问题在这里已经有答案了我有一个 numpy ndarray a 0 99 0 56 0 56 2 02 0 96 如何将其转换为int 输出 a 0 99 0 0 0 56 0 56 2 02 0 96 我想要 0 0 代替空白 im
使用 Javascript 从 URL 字符串获取端口 [重复]

这个问题在这里已经有答案了我想要一个 javascript 函数它将获取一个 url 作为参数并返回该 URL 的端口如下所示如果有一个http or https 端口 80 443 它不会显示在 url 结构中但我还是希望它们
Codeigniter：对未定义函数 mysqli_init() 的致命错误调用

我刚刚更改了服务器并遇到以下错误 Fatal error Call to undefined function mysqli init in home blacktwitter public html system database dri
更改 AS3 中的 TextField 选择颜色

如何更改 ActionScript 3 中 TextField 的选择突出显示颜色我有一个输入文本字段黑色背景上有白色文本因此选择是不可见的这对于可用性来说非常糟糕谢谢另一种方法是使用文本布局框架特别是使用 Select
如何使用 SqlDataReader 返回和使用 IAsyncEnumerable

请看下面两种方法第一个返回一个IAsyncEnumerable 第二个试图消耗它 using System Collections Generic using System Data using System Data SqlClient
git push origin master 失败

我正在尝试将现有文件夹上传到 gitHub 按照说明我在 Windows 中输入了以下内容 git remote add origin email protected cdn cgi l email protection myname m
如何在 C++/CLI 中显式/隐式实现接口成员？

在 C CLI 中与此等效的内容是什么 class Explicit IClonable void IClonable Clone class Implicit IClonable public void Clone 正如 nobugz 所
C# 到 Java：Base64String、MemoryStream、GZipStream

我有一个在 NET 中压缩的 Base64 字符串我想将其转换回 Java 中的字符串我正在寻找一些与 C 语法等效的 Java 语法特别是 Convert FromBase64String 内存流压缩流这是我想要转换的方法 pu
Python 中意外的缩进错误[重复]

这个问题在这里已经有答案了我有一段简单的代码我不明白我的错误来自哪里解析器在第 5 行 if 语句上用意外的缩进向我咆哮有人看到这里的问题吗我不 def gen fibs a b 0 1 while True a b b a b
没有适当的默认构造函数可用于 std::unique_ptr

这是我上一篇文章的延续由于它已经关闭我决定发表新帖子我删除了一半的代码以使其更具可读性我读过的一些帖子使用 SDL 的智能指针 https stackoverflow com questions 24251747 smart po
负载测试 SQL Alchemy：“TimeoutError：达到 QueuePool 大小限制 3 溢出 0，连接超时，超时 30”

我有一个在 AWS 中运行的基于 SQL Alchemy 的 Web 应用程序该网络应用程序有几个c3 2xlargeELB 后面的 EC2 实例每个 8 个 CPU 接收 Web 请求然后查询写入共享数据库我使用的数据库是 RD
PMT功能支付方式

下面是我计算贷款付款的函数就像在 Excel 中一样我需要添加另一个参数即付款类型 function PMT ir np pv fv ir interest rate per month np number of periods mo
如何在 Rails 4 中“link_to”完整路径？

这是我的代码 a a 从上面
我应该如何优化这个文件系统 I/O 绑定程序？

我有一个 python 程序它执行如下操作从 csv 文件中读取一行对其进行一些变换将其分解为实际的行因为它们将被写入数据库将这些行写入单独的 csv 文件除非文件已完全读取否则返回步骤 1 运行 SQL Loader 并将

我应该如何优化这个文件系统 I/O 绑定程序？

我应该如何优化这个文件系统 I/O 绑定程序？ 的相关文章

随机推荐

热门标签

我应该如何优化这个文件系统 I/O 绑定程序？的相关文章