逐行读取文本文件的最快方法是什么?

2023-11-27

我想逐行读取文本文件。我想知道我是否在 .NET C# 范围内尽可能高效地完成工作。

到目前为止,这就是我正在尝试的:

var filestream = new System.IO.FileStream(textFilePath,
                                          System.IO.FileMode.Open,
                                          System.IO.FileAccess.Read,
                                          System.IO.FileShare.ReadWrite);
var file = new System.IO.StreamReader(filestream, System.Text.Encoding.UTF8, true, 128);

while ((lineOfText = file.ReadLine()) != null)
{
    //Do something with the lineOfText
}

要找到逐行读取文件的最快方法,您必须进行一些基准测试。我在我的计算机上做了一些小测试,但您不能指望我的结果适用于您的环境。

使用 StreamReader.ReadLine

这基本上就是你的方法。由于某种原因,您将缓冲区大小设置为尽可能小的值 (128)。增加此值通常会提高性能。默认大小为 1,024,其他不错的选择是 512(Windows 中的扇区大小)或 4,096(NTFS 中的簇大小)。您必须运行基准测试来确定最佳缓冲区大小。较大的缓冲区即使不比较小的缓冲区更快,至少也不慢。

const Int32 BufferSize = 128;
using (var fileStream = File.OpenRead(fileName))
  using (var streamReader = new StreamReader(fileStream, Encoding.UTF8, true, BufferSize)) {
    String line;
    while ((line = streamReader.ReadLine()) != null)
    {
      // Process line
    }
  }

The FileStream构造函数允许您指定文件选项。例如,如果您从头到尾顺序读取一个大文件,您可能会受益于FileOptions.SequentialScan。再次强调,基准测试是你能做的最好的事情。

使用 File.ReadLines

这与您自己的解决方案非常相似,只是它是使用StreamReader固定缓冲区大小为 1,024。在我的计算机上,与缓冲区大小为 128 的代码相比,这会带来稍好的性能。但是,通过使用更大的缓冲区大小,您可以获得相同的性能提升。此方法使用迭代器块实现,并且不会消耗所有行的内存。

var lines = File.ReadLines(fileName);
foreach (var line in lines)
  // Process line

使用 File.ReadAllLines

这与前面的方法非常相似,只是该方法增加了用于创建返回的行数组的字符串列表,因此内存要求更高。然而,它返回String[]而不是一个IEnumerable<String>允许您随机访问线路。

var lines = File.ReadAllLines(fileName);
for (var i = 0; i < lines.Length; i += 1) {
  var line = lines[i];
  // Process line
}

使用 String.Split

此方法相当慢,至少在大文件上(在 511 KB 文件上测试),可能是由于String.Split已实施。它还为所有行分配一个数组,与您的解决方案相比,增加了所需的内存。

using (var streamReader = File.OpenText(fileName)) {
  var lines = streamReader.ReadToEnd().Split("\r\n".ToCharArray(), StringSplitOptions.RemoveEmptyEntries);
  foreach (var line in lines)
    // Process line
}

我的建议是使用File.ReadLines因为它干净、高效。如果您需要特殊的共享选项(例如您使用FileShare.ReadWrite),您可以使用自己的代码,但应该增加缓冲区大小。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

逐行读取文本文件的最快方法是什么? 的相关文章

  • 如何在 Cassandra 中存储无符号整数?

    我通过 Datastax 驱动程序在 Cassandra 中存储一些数据 并且需要存储无符号 16 位和 32 位整数 对于无符号 16 位整数 我可以轻松地将它们存储为有符号 32 位整数 并根据需要进行转换 然而 对于无符号 64 位整
  • std::vector 与 std::stack

    有什么区别std vector and std stack 显然 向量可以删除集合中的项目 尽管比列表慢得多 而堆栈被构建为仅后进先出的集合 然而 堆栈对于最终物品操作是否更快 它是链表还是动态重新分配的数组 我找不到关于堆栈的太多信息 但
  • 从经典 ASP 调用 .Net C# DLL 方法

    我正在开发一个经典的 asp 项目 该项目需要将字符串发送到 DLL DLL 会将其序列化并发送到 Zebra 热敏打印机 我已经构建了我的 DLL 并使用它注册了regasm其次是 代码库这使得 IIS 能够识别它 虽然我可以设置我的对象
  • 如何连接重叠的圆圈?

    我想在视觉上连接两个重叠的圆圈 以便 becomes 我已经有部分圆的方法 但现在我需要知道每个圆的重叠角度有多大 但我不知道该怎么做 有人有主意吗 Phi ArcTan Sqrt 4 R 2 d 2 d HTH Edit 对于两个不同的半
  • 如何在 C++ 中标记字符串?

    Java有一个方便的分割方法 String str The quick brown fox String results str split 在 C 中是否有一种简单的方法可以做到这一点 The 增强分词器 http www boost o
  • 无限循环与无限递归。两者都是未定义的吗?

    无副作用的无限循环是未定义的行为 看here https coliru stacked crooked com view id 24e0a58778f67cd4举个例子参考参数 https en cppreference com w cpp
  • 如何使从 C# 调用的 C(P/invoke)代码“线程安全”

    我有一些简单的 C 代码 它使用单个全局变量 显然这不是线程安全的 所以当我使用 P invoke 从 C 中的多个线程调用它时 事情就搞砸了 如何为每个线程单独导入此函数 或使其线程安全 我尝试声明变量 declspec thread 但
  • ASP.NET Core 3.1登录后如何获取用户信息

    我试图在登录 ASP NET Core 3 1 后获取用户信息 如姓名 电子邮件 id 等信息 这是我在登录操作中的代码 var claims new List
  • C# 列表通用扩展方法与非通用扩展方法

    这是一个简单的问题 我希望 集合类中有通用和非通用方法 例如List
  • 使用 C# 中的 CsvHelper 将不同文化的 csv 解析为十进制

    C 中 CsvHelper 解析小数的问题 我创建了一个从 byte 而不是文件获取 csv 文件的类 并且它工作正常 public static List
  • VB.NET 中的静态方法实现

    我很困惑Static在 VB NET 中的实现 在 C 中 我们可以创建静态类和静态方法来为我们的应用程序编写实用方法 现在 VB NET 让我们创建Module代替静态类 如果我们在模块中创建一个方法 默认情况下它会变成静态的 但在我的应
  • 为什么 C# 2.0 之后没有 ISO 或 ECMA 标准化?

    我已经开始学习 C 并正在寻找标准规范 但发现大于 2 0 的 C 版本并未由 ISO 或 ECMA 标准化 或者是我从 Wikipedia 收集到的 这有什么原因吗 因为编写 审查 验证 发布 处理反馈 修订 重新发布等复杂的规范文档需要
  • 引用的程序集自动由 Visual Studio 替换

    我有 2 个项目 一个可移植类库和一个常规单元测试项目 在可移植类库中 我使用 NuGet 来引用 Microsoft BCL 可移植包 它附带 2 个程序集 System Threading Tasks dll and System Ru
  • 有没有办法让 doxygen 自动处理未记录的 C 代码?

    通常它会忽略未记录的 C 文件 但我想测试 Callgraph 功能 例如 您知道在不更改 C 文件的情况下解决此问题的方法吗 设置变量EXTRACT ALL YES在你的 Doxyfile 中
  • 相当于Linux中的导入库

    在 Windows C 中 当您想要链接 DLL 时 您必须提供导入库 但是在 GNU 构建系统中 当您想要链接 so 文件 相当于 dll 时 您就不需要链接 为什么是这样 是否有等效的 Windows 导入库 注意 我不会谈论在 Win
  • C# 中的 IPC 机制 - 用法和最佳实践

    不久前我在 Win32 代码中使用了 IPC 临界区 事件和信号量 NET环境下场景如何 是否有任何教程解释所有可用选项以及何时使用以及为什么 微软最近在IPC方面的东西是Windows 通信基础 http en wikipedia org
  • C++ 中的 include 和 using 命名空间

    用于使用cout 我需要指定两者 include
  • 当文件流没有新数据时如何防止fgets阻塞

    我有一个popen 执行的函数tail f sometextfile 只要文件流中有数据显然我就可以通过fgets 现在 如果没有新数据来自尾部 fgets 挂起 我试过ferror and feof 无济于事 我怎样才能确定fgets 当
  • 为什么 std::uint32_t 与 uint32_t 不同?

    我对 C 有点陌生 我有一个编码作业 很多文件已经完成 但我注意到 VS2012 似乎有以下语句的问题 typedef std uint32 t identifier 不过 似乎将其更改为 typedef uint32 t identifi
  • 从 mvc 控制器使用 Web api 控制器操作

    我有两个控制器 一个mvc控制器和一个api控制器 它们都在同一个项目中 HomeController Controller DataController ApiController 如果我想从 HomeController 中使用 Dat

随机推荐

  • 使用循环填充空的Python数据框

    假设我想创建一个空数据框并用循环中的值填充它 import pandas as pd import numpy as np years 2013 2014 2015 dn pd DataFrame for year in years df1
  • Html.BeginForm 内的 Ajax.BeginForm

    我有一个用于编辑内容的视图 例如订单 订单有可以任意添加的行项目 所以有一个主视图和嵌套的局部视图 每个部分都应该有一个 ajax 表单 用于调整每个行项目的数量或其他内容 Thus Html BeginForm gt Ship to bl
  • Heroku 上的 Python bcrypt 包给出 AttributeError: 'module' object has no attribute 'ffi'

    我在 Heroku 上的 Flask 应用程序中使用 bcrypt 时遇到问题 当我部署到 Heroku 并转到登录路由时 我收到 500 内部服务器错误 它在本地工作正常 如何让 bcrypt 包在 Heroku 上运行 ERROR in
  • Angular2 rc.4layz路由

    Angular2 rc 4 惰性路由已被弃用 异步路由示例 rc 4 是否有新的惰性路由 异步路由示例 loadChildren应该这样做 path section loadChildren section bundle 我不知道该字符串到
  • 猫鼬 ob​​jectid 到数字

    如何将 ObjectId 转换为数字 在我的应用程序中 我在客户端使用最新的猫鼬版本和主干 我的问题是 ObjectId 最终总是放在引号之间 这会导致我的玉模板和客户端中出现双引号 例如 233453452534 edit 我正在查询 m
  • 如何在没有 _class 属性的情况下将 spring 数据与 couchbase 一起使用

    有没有一种简单的方法可以将 spring data couchbase 与没有的文档一起使用 class属性 在沙发底座上我有类似的东西sampledata bucket username alice created 14732928000
  • CSS 选择器和 jQuery 过滤器之间的区别?

    可以将 CSS 选择器传递给 jQuery 函数 例如 jQuery h1 h2 jQuery 还有一些过滤器 例如 even and odd jQuery tr even 我正在寻找某种区分两者的语法规则 我想也许 jQuery 过滤器总
  • SQL Server中Group By、Having和Where子句的执行顺序?

    当我们使用时 我只是对 SQL 查询的执行顺序感到困惑GROUP BY and HAVING with a WHERE条款 哪个先被处决 顺序是什么 为了 FROM JOINs 确定和过滤行 WHERE行上有更多过滤器 GROUP BY将这
  • gRPC 设置出现问题。出现间歇性 RPC 不可用错误

    我有一个 grpc 服务器和客户端 大部分时间都按预期工作 但偶尔会收到 传输正在关闭 错误 rpc error code Unavailable desc transport is closing 我想知道是不是我的设置有问题 客户端非常
  • 如何创建二维动态长度数组?

    我想创建一个二维数组 而不知道第一维的大小 例如 当我创建数组时 我的行数未知 每一行代表一个帐户 每行退出 4 列 ID 名称 用户 密码 我尝试使用锯齿状数组 但不可能 int jaggedArray new int 3 我也找过Arr
  • 在android上的列表视图下方添加一个按钮

    所以我一直在尝试在android中的列表视图下添加一个按钮 问题是该按钮没有出现
  • 为通过 Azure 函数输出绑定添加到 Azure 队列的消息设置 VisibilityTimeout

    我有一个 TimerTrigger 函数 输出绑定是一个 Azure 队列 这个想法是 计时器每 10 分钟运行一次 它将查看数据库中的视图 并迭代返回的任何行 将它们作为消息添加到队列中 下面是我的示例 TimerTrigger 将消息添
  • 在javascript中初始化和填充多维数组

    我们如何初始化和创建新的多维数组 让我们想象一下 如果我想初始化一个 4x4 多维数组并用 0 填充它 理想情况下 在二维数组中 我们会这样做 let oned array new Array 10 fill 0 将创建大小为 10 的数组
  • 如何使用 Selenium 查找表中的特定行?

    这是一个示例代码 div table class table gradient myPage 因此 productOrderContainer 中的这个表有几列 并且根据某些情况 将有几行 这些行都有几列 一个例子是 例如 我想做的是获取该
  • 在任何应用程序中使用 info.plist 隐藏状态栏

    需要澄清的是 我不想在我自己的应用程序上执行此操作 因此我无权访问源代码 我正在尝试编辑 info plist 或设备上已安装的 app 文件中的任何其他文件 以从应用程序 即 Google Chrome 中删除状态栏 我正在尝试隐藏 Go
  • RDD 在内存中保留多长时间?

    考虑到内存有限 我有一种感觉 spark会自动从每个节点中删除RDD 我想知道这个时间可以配置吗 Spark如何决定何时从内存中驱逐RDD 注意 我不是在谈论rdd cache 我想知道这个时间可以配置吗 Spark 如何决定何时 从内存中
  • 如何在 Tensorflow 中暂停/恢复训练

    这个问题是在保存和恢复文档可用之前提出的 现在我认为这个问题已被弃用 并建议人们依赖官方文档保存和恢复 老问题要点 I got TF工作正常CIFAR教程 我已经改变了 保存的代码train dir 带有检查点的目录和 模型 到已知位置 这
  • 如何使用 javascript aws-sdk 支持 dynamoDB 中的事务?

    我们有一个用 Node js 编写的微服务 并使用 dynamoDB 进行数据存储 值以 json 格式存储在键中 在更新服务调用中 我们获取键的值 更新 json 并保存它 最近 我们遇到了两个调用想要更新同一个键的值的情况 因此 第一次
  • 将文件资源注入 Spring bean

    将一些文件资源注入 Spring bean 的好方法是什么 现在我自动装配 ServletContext 并使用如下所示 在 Spring MVC 中是否有更优雅的方法 Controller public class SomeControl
  • 逐行读取文本文件的最快方法是什么?

    我想逐行读取文本文件 我想知道我是否在 NET C 范围内尽可能高效地完成工作 到目前为止 这就是我正在尝试的 var filestream new System IO FileStream textFilePath System IO F