并行磁盘 I/O

2024-05-25

我有几个想要阅读的日志文件。不失一般性，假设日志文件处理如下：

def process(infilepath):
    answer = 0
    with open (infilepath) as infile:
        for line in infile:
            if line.startswith(someStr):
                answer += 1
    return answer

由于我有很多日志文件，我想在这个问题上抛出多处理（我的第一个错误：我应该可能使用多线程；有人请告诉我为什么）

在这样做时，我突然想到，任何形式的并行处理在这里实际上都是无用的，因为我受到硬盘上只有一个读取头这一事实的限制，因此，一次只能读取一个文件。时间。事实上，根据这种推理，由于来自不同文件的行可能被同时请求，读头可能需要不时地显着移动，导致多进程方法比串行方法慢。所以我决定回到单个进程来读取我的日志文件。

但有趣的是，我注意到小文件 (= 445MB) 才注意到预期的速度下降。

这让我相信 python 可以分块读取文件，其大小超过我一次请求的一行。

Q1:那么什么是文件读取机制在引擎盖下？

Q2:优化从文件读取的最佳方法是什么传统硬盘?

技术规格：

python3.3
5400rpm传统硬盘
Mac OSX 10.9.2（小牛队）

观察到的行为是由于：

缓冲IO
决定读取 HDD 必需扇区的顺序的调度算法

缓冲IO

根据操作系统和读取块大小，整个文件可能适合一个块，这是在单个读取命令中读取的内容。这就是为什么较小的文件更容易读取

调度算法

较大的文件（文件大小 > 读取块大小），必须读入block size大块。因此，当请求对多个文件中的每个文件进行读取时（由于多处理），指针必须移动到 HDD 的不同扇区（对应于文件所在的位置）。这种重复的动作有两件事：

增加连续读取同一文件的时间间隔
摆脱读取扇区预测器，因为一个文件可能跨越多个扇区

如果在读取头可以提供同一文件中的下一个行块之前完成对一个行块执行的计算，则同一文件的连续读取之间的时间很重要，该过程只需等待直到另一个行块变得可用。这是速度放缓的原因之一

放弃读取预测器是不好的，原因与为什么抛弃分支预测器是不好的 https://stackoverflow.com/a/11227902/198633.

由于这两个问题的综合影响，并行处理许多大文件会比串行处理它们慢。当然，处理的时候更是如此blockSize许多行之前完成numProcesses * blockSize可以从硬盘中读取很多行

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

并行磁盘 I/O 的相关文章

SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
为 Anaconda Python 安装 psycopg2

我有 Anaconda Python 3 4 但是每当我运行旧代码时我都会通过输入 source activate python2 切换到 Anaconda Python 2 7 我的问题是我为 Anaconda Python 3 4 安
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
Python - StatsModels、OLS 置信区间

在 Statsmodels 中我可以使用以下方法拟合我的模型 import statsmodels api as sm X np array 22000 13400 47600 7400 12000 32000 28000 31000 6
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

在包“android”中找不到属性“roundIcon”的资源标识符

我正在尝试编译我的项目但出现一些错误 Android 清单 xml
运行 C# exe 文件

复制为什么我的 NET 应用程序在从网络驱动器运行时会崩溃 https stackoverflow com questions 148879 why does my net application crash when run from
使用条件函数在 data.table() 中分配多列

在上一个问题中在 dplyr mutate 中返回一个列表 https stackoverflow com questions 21630406 return a list in dplyr mutate noredirect 1 comm
如何使用 2 个不同的 y 轴进行绘图？

我想在 R 中叠加两个散点图以便每组点都有自己的不同的 y 轴即在图上的位置 2 和 4 中但这些点看起来叠加在同一个图上是否可以这样做plot Edit显示问题的示例代码 example code for SO question
将日期时间列拆分为年、月和周

我想拆分日期时间列以便年份和月份在 select 语句输出中都有自己的列我还希望有一个按一年中的一周而不是特定日期的专栏基本上我希望单独的年月和周列显示在我的 select 语句输出中尝试使用DatePart http msdn
尝试安装 python 包 Box2D 时出错

我正在尝试通过 pip 安装 Box2D 软件包的版本 2 3 10 但是 pip 返回以下错误消息 ERROR Could not find a version that satisfies the requirement Box2D 2
您是否对基于 GWT 的应用程序的客户端和服务器端使用单个项目或单独的项目？

您的 GWT 项目设置如何您是否有一个针对客户端的项目和针对服务器端的单独项目您能分享一下您为 GWT 前端 Spring 后端系统组织项目的经验吗我希望在这个项目中使用 Spring GWT Tomcat Hibernate 除非您
Visual Studio 2013 Intellisense 不会将枚举类型放在方法参数的位置

例如我有以下代码 namespace VS2013 EnumTypes class Program enum SomeEnum One Two static void SomeMethod SomeEnum someEnum some c
如何在块元素之间添加垂直间距，但不添加顶部和底部

假设我有一堆 P LI 或 DIV 元素它们之间没有任何内容我想控制它们之间的垂直间距这样它们就不会贴得那么紧但我不想添加任何顶部和底部空间因为这是由父元素处理的我不需要更多有没有一种适用于所有块元素的简单方法假设我有这样的
协议扩展，不符合协议

我正在创建一个名为MyFramework含有LoginProtocol swift它有一些默认行为 import UIKit public protocol LoginProtocol func appBannerImage gt UIIm
使用 Spot 队列自动扩展而不是具有现货价格的 AutoScaling 组有什么优势？

最近亚马逊 AWS 发布了针对 Spot 队列的 Auto Scaling https aws amazon com blogs aws new auto scaling for ec2 spot fleets https aws ama
如何在C中将2个4位无符号数组合成1个8位数

我有 2 个 4 位数字 X0X1X2X3 和 Y0Y1Y2Y3 我想将它们组合起来这样我就可以创建一个像这样的 8 位数字 X0X1X2X3 Y0Y1Y2Y3 gt X0Y0X1Y1X2Y2X3Y3 我知道如何连接它们以创建X0X1X1
如何将 Perforce 仓库位置转换为客户端视图位置

我想知道如何将 Perforce 仓库位置转换为客户端视图位置以用于脚本编写我有一个脚本它首先检查文件以进行编辑然后与该文件进行交互我需要将仓库位置即 Projects Project6 转换为客户端视图位置即 d Projec
检查 NSIndexPath 的行和部分的开关

我想设置一个 switch 语句来检查值 ifNSIndexPath NSIndexPath是一个类它由除其他外部分和行组成 indexPath row indexPath section 这就是我如何制定 if 语句来同时检查行和部
两个表中两个字段的总和

我的数据库中有四个表如下所示表格发票 invcid customerid invoicedate tblInvc详细信息 ID invcid item itemprice itemquantity tblPay payid invcid
$index 中的 AngularJS 数字

举例来说我有以下代码伪 div index div 结果将是 1 2 3 4 5 6 我怎样才能改变上面的代码以便打印索引 001 002 003 004 005 006 以便索引打印为 3 位数字您可以使用过滤器轻松完成此操作首先
窗口对象没有创建它的页面附加的属性

我用window open url target 开一个url在新选项卡窗口中在此之前我在新打开的窗口对象上设置了一些属性目的是将数据从该页面新窗口的创建者传递到新创建的窗口在除 Internet Explorer 之外的所有
cmd中哪个符号是转义符？

我有这个代码 powershell command New Object Net WebClient DownloadFile linkToMyFile file C my file 它用于下载文件当我在远程服务器上的 cmd 中执行它时
Mysql启动问题|错误！服务器退出而不更新PID文件

有任何想法吗 Joshs MacBook Pro cdwhp joshc mysql server start Starting MySQL ERROR The server quit without updating PID file u
并行磁盘 I/O

我有几个想要阅读的日志文件不失一般性假设日志文件处理如下 def process infilepath answer 0 with open infilepath as infile for line in infile if line

并行磁盘 I/O

缓冲IO

调度算法

并行磁盘 I/O 的相关文章

随机推荐

热门标签