逐行读取文本文件的最快方法是什么？

2023-11-27

我想逐行读取文本文件。我想知道我是否在 .NET C# 范围内尽可能高效地完成工作。

到目前为止，这就是我正在尝试的：

var filestream = new System.IO.FileStream(textFilePath,
                                          System.IO.FileMode.Open,
                                          System.IO.FileAccess.Read,
                                          System.IO.FileShare.ReadWrite);
var file = new System.IO.StreamReader(filestream, System.Text.Encoding.UTF8, true, 128);

while ((lineOfText = file.ReadLine()) != null)
{
    //Do something with the lineOfText
}

要找到逐行读取文件的最快方法，您必须进行一些基准测试。我在我的计算机上做了一些小测试，但您不能指望我的结果适用于您的环境。

使用 StreamReader.ReadLine

这基本上就是你的方法。由于某种原因，您将缓冲区大小设置为尽可能小的值 (128)。增加此值通常会提高性能。默认大小为 1,024，其他不错的选择是 512（Windows 中的扇区大小）或 4,096（NTFS 中的簇大小）。您必须运行基准测试来确定最佳缓冲区大小。较大的缓冲区即使不比较小的缓冲区更快，至少也不慢。

const Int32 BufferSize = 128;
using (var fileStream = File.OpenRead(fileName))
  using (var streamReader = new StreamReader(fileStream, Encoding.UTF8, true, BufferSize)) {
    String line;
    while ((line = streamReader.ReadLine()) != null)
    {
      // Process line
    }
  }

The FileStream构造函数允许您指定文件选项。例如，如果您从头到尾顺序读取一个大文件，您可能会受益于FileOptions.SequentialScan。再次强调，基准测试是你能做的最好的事情。

使用 File.ReadLines

这与您自己的解决方案非常相似，只是它是使用StreamReader固定缓冲区大小为 1,024。在我的计算机上，与缓冲区大小为 128 的代码相比，这会带来稍好的性能。但是，通过使用更大的缓冲区大小，您可以获得相同的性能提升。此方法使用迭代器块实现，并且不会消耗所有行的内存。

var lines = File.ReadLines(fileName);
foreach (var line in lines)
  // Process line

使用 File.ReadAllLines

这与前面的方法非常相似，只是该方法增加了用于创建返回的行数组的字符串列表，因此内存要求更高。然而，它返回String[]而不是一个IEnumerable<String>允许您随机访问线路。

var lines = File.ReadAllLines(fileName);
for (var i = 0; i < lines.Length; i += 1) {
  var line = lines[i];
  // Process line
}

使用 String.Split

此方法相当慢，至少在大文件上（在 511 KB 文件上测试），可能是由于String.Split已实施。它还为所有行分配一个数组，与您的解决方案相比，增加了所需的内存。

using (var streamReader = File.OpenText(fileName)) {
  var lines = streamReader.ReadToEnd().Split("\r\n".ToCharArray(), StringSplitOptions.RemoveEmptyEntries);
  foreach (var line in lines)
    // Process line
}

我的建议是使用File.ReadLines因为它干净、高效。如果您需要特殊的共享选项（例如您使用FileShare.ReadWrite），您可以使用自己的代码，但应该增加缓冲区大小。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

逐行读取文本文件的最快方法是什么？的相关文章

如何在 Cassandra 中存储无符号整数？

我通过 Datastax 驱动程序在 Cassandra 中存储一些数据并且需要存储无符号 16 位和 32 位整数对于无符号 16 位整数我可以轻松地将它们存储为有符号 32 位整数并根据需要进行转换然而对于无符号 64 位整
std::vector 与 std::stack

有什么区别std vector and std stack 显然向量可以删除集合中的项目尽管比列表慢得多而堆栈被构建为仅后进先出的集合然而堆栈对于最终物品操作是否更快它是链表还是动态重新分配的数组我找不到关于堆栈的太多信息但
从经典 ASP 调用 .Net C# DLL 方法

我正在开发一个经典的 asp 项目该项目需要将字符串发送到 DLL DLL 会将其序列化并发送到 Zebra 热敏打印机我已经构建了我的 DLL 并使用它注册了regasm其次是代码库这使得 IIS 能够识别它虽然我可以设置我的对象
如何连接重叠的圆圈？

我想在视觉上连接两个重叠的圆圈以便 becomes 我已经有部分圆的方法但现在我需要知道每个圆的重叠角度有多大但我不知道该怎么做有人有主意吗 Phi ArcTan Sqrt 4 R 2 d 2 d HTH Edit 对于两个不同的半
如何在 C++ 中标记字符串？

Java有一个方便的分割方法 String str The quick brown fox String results str split 在 C 中是否有一种简单的方法可以做到这一点 The 增强分词器 http www boost o
无限循环与无限递归。两者都是未定义的吗？

无副作用的无限循环是未定义的行为看here https coliru stacked crooked com view id 24e0a58778f67cd4举个例子参考参数 https en cppreference com w cpp
如何使从 C# 调用的 C（P/invoke）代码“线程安全”

我有一些简单的 C 代码它使用单个全局变量显然这不是线程安全的所以当我使用 P invoke 从 C 中的多个线程调用它时事情就搞砸了如何为每个线程单独导入此函数或使其线程安全我尝试声明变量 declspec thread 但
ASP.NET Core 3.1登录后如何获取用户信息

我试图在登录 ASP NET Core 3 1 后获取用户信息如姓名电子邮件 id 等信息这是我在登录操作中的代码 var claims new List
C# 列表通用扩展方法与非通用扩展方法

这是一个简单的问题我希望集合类中有通用和非通用方法例如List
使用 C# 中的 CsvHelper 将不同文化的 csv 解析为十进制

C 中 CsvHelper 解析小数的问题我创建了一个从 byte 而不是文件获取 csv 文件的类并且它工作正常 public static List
VB.NET 中的静态方法实现

我很困惑Static在 VB NET 中的实现在 C 中我们可以创建静态类和静态方法来为我们的应用程序编写实用方法现在 VB NET 让我们创建Module代替静态类如果我们在模块中创建一个方法默认情况下它会变成静态的但在我的应
为什么 C# 2.0 之后没有 ISO 或 ECMA 标准化？

我已经开始学习 C 并正在寻找标准规范但发现大于 2 0 的 C 版本并未由 ISO 或 ECMA 标准化或者是我从 Wikipedia 收集到的这有什么原因吗因为编写审查验证发布处理反馈修订重新发布等复杂的规范文档需要
引用的程序集自动由 Visual Studio 替换

我有 2 个项目一个可移植类库和一个常规单元测试项目在可移植类库中我使用 NuGet 来引用 Microsoft BCL 可移植包它附带 2 个程序集 System Threading Tasks dll and System Ru
有没有办法让 doxygen 自动处理未记录的 C 代码？

通常它会忽略未记录的 C 文件但我想测试 Callgraph 功能例如您知道在不更改 C 文件的情况下解决此问题的方法吗设置变量EXTRACT ALL YES在你的 Doxyfile 中
相当于Linux中的导入库

在 Windows C 中当您想要链接 DLL 时您必须提供导入库但是在 GNU 构建系统中当您想要链接 so 文件相当于 dll 时您就不需要链接为什么是这样是否有等效的 Windows 导入库注意我不会谈论在 Win
C# 中的 IPC 机制 - 用法和最佳实践

不久前我在 Win32 代码中使用了 IPC 临界区事件和信号量 NET环境下场景如何是否有任何教程解释所有可用选项以及何时使用以及为什么微软最近在IPC方面的东西是Windows 通信基础 http en wikipedia org
C++ 中的 include 和 using 命名空间

用于使用cout 我需要指定两者 include
当文件流没有新数据时如何防止fgets阻塞

我有一个popen 执行的函数tail f sometextfile 只要文件流中有数据显然我就可以通过fgets 现在如果没有新数据来自尾部 fgets 挂起我试过ferror and feof 无济于事我怎样才能确定fgets 当
为什么 std::uint32_t 与 uint32_t 不同？

我对 C 有点陌生我有一个编码作业很多文件已经完成但我注意到 VS2012 似乎有以下语句的问题 typedef std uint32 t identifier 不过似乎将其更改为 typedef uint32 t identifi
从 mvc 控制器使用 Web api 控制器操作

我有两个控制器一个mvc控制器和一个api控制器它们都在同一个项目中 HomeController Controller DataController ApiController 如果我想从 HomeController 中使用 Dat

随机推荐

使用循环填充空的Python数据框

假设我想创建一个空数据框并用循环中的值填充它 import pandas as pd import numpy as np years 2013 2014 2015 dn pd DataFrame for year in years df1
Html.BeginForm 内的 Ajax.BeginForm

我有一个用于编辑内容的视图例如订单订单有可以任意添加的行项目所以有一个主视图和嵌套的局部视图每个部分都应该有一个 ajax 表单用于调整每个行项目的数量或其他内容 Thus Html BeginForm gt Ship to bl
Heroku 上的 Python bcrypt 包给出 AttributeError: 'module' object has no attribute 'ffi'

我在 Heroku 上的 Flask 应用程序中使用 bcrypt 时遇到问题当我部署到 Heroku 并转到登录路由时我收到 500 内部服务器错误它在本地工作正常如何让 bcrypt 包在 Heroku 上运行 ERROR in
Angular2 rc.4layz路由

Angular2 rc 4 惰性路由已被弃用异步路由示例 rc 4 是否有新的惰性路由异步路由示例 loadChildren应该这样做 path section loadChildren section bundle 我不知道该字符串到
猫鼬 objectid 到数字

如何将 ObjectId 转换为数字在我的应用程序中我在客户端使用最新的猫鼬版本和主干我的问题是 ObjectId 最终总是放在引号之间这会导致我的玉模板和客户端中出现双引号例如 233453452534 edit 我正在查询 m
如何在没有 _class 属性的情况下将 spring 数据与 couchbase 一起使用

有没有一种简单的方法可以将 spring data couchbase 与没有的文档一起使用 class属性在沙发底座上我有类似的东西sampledata bucket username alice created 14732928000
CSS 选择器和 jQuery 过滤器之间的区别？

可以将 CSS 选择器传递给 jQuery 函数例如 jQuery h1 h2 jQuery 还有一些过滤器例如 even and odd jQuery tr even 我正在寻找某种区分两者的语法规则我想也许 jQuery 过滤器总
SQL Server中Group By、Having和Where子句的执行顺序？

当我们使用时我只是对 SQL 查询的执行顺序感到困惑GROUP BY and HAVING with a WHERE条款哪个先被处决顺序是什么为了 FROM JOINs 确定和过滤行 WHERE行上有更多过滤器 GROUP BY将这
gRPC 设置出现问题。出现间歇性 RPC 不可用错误

我有一个 grpc 服务器和客户端大部分时间都按预期工作但偶尔会收到传输正在关闭错误 rpc error code Unavailable desc transport is closing 我想知道是不是我的设置有问题客户端非常
如何创建二维动态长度数组？

我想创建一个二维数组而不知道第一维的大小例如当我创建数组时我的行数未知每一行代表一个帐户每行退出 4 列 ID 名称用户密码我尝试使用锯齿状数组但不可能 int jaggedArray new int 3 我也找过Arr
在android上的列表视图下方添加一个按钮

所以我一直在尝试在android中的列表视图下添加一个按钮问题是该按钮没有出现
为通过 Azure 函数输出绑定添加到 Azure 队列的消息设置 VisibilityTimeout

我有一个 TimerTrigger 函数输出绑定是一个 Azure 队列这个想法是计时器每 10 分钟运行一次它将查看数据库中的视图并迭代返回的任何行将它们作为消息添加到队列中下面是我的示例 TimerTrigger 将消息添
在javascript中初始化和填充多维数组

我们如何初始化和创建新的多维数组让我们想象一下如果我想初始化一个 4x4 多维数组并用 0 填充它理想情况下在二维数组中我们会这样做 let oned array new Array 10 fill 0 将创建大小为 10 的数组
如何使用 Selenium 查找表中的特定行？

这是一个示例代码 div table class table gradient myPage 因此 productOrderContainer 中的这个表有几列并且根据某些情况将有几行这些行都有几列一个例子是例如我想做的是获取该
在任何应用程序中使用 info.plist 隐藏状态栏

需要澄清的是我不想在我自己的应用程序上执行此操作因此我无权访问源代码我正在尝试编辑 info plist 或设备上已安装的 app 文件中的任何其他文件以从应用程序即 Google Chrome 中删除状态栏我正在尝试隐藏 Go
RDD 在内存中保留多长时间？

考虑到内存有限我有一种感觉 spark会自动从每个节点中删除RDD 我想知道这个时间可以配置吗 Spark如何决定何时从内存中驱逐RDD 注意我不是在谈论rdd cache 我想知道这个时间可以配置吗 Spark 如何决定何时从内存中
如何在 Tensorflow 中暂停/恢复训练

这个问题是在保存和恢复文档可用之前提出的现在我认为这个问题已被弃用并建议人们依赖官方文档保存和恢复老问题要点 I got TF工作正常CIFAR教程我已经改变了保存的代码train dir 带有检查点的目录和模型到已知位置这
如何使用 javascript aws-sdk 支持 dynamoDB 中的事务？

我们有一个用 Node js 编写的微服务并使用 dynamoDB 进行数据存储值以 json 格式存储在键中在更新服务调用中我们获取键的值更新 json 并保存它最近我们遇到了两个调用想要更新同一个键的值的情况因此第一次
将文件资源注入 Spring bean

将一些文件资源注入 Spring bean 的好方法是什么现在我自动装配 ServletContext 并使用如下所示在 Spring MVC 中是否有更优雅的方法 Controller public class SomeControl
逐行读取文本文件的最快方法是什么？

我想逐行读取文本文件我想知道我是否在 NET C 范围内尽可能高效地完成工作到目前为止这就是我正在尝试的 var filestream new System IO FileStream textFilePath System IO F

逐行读取文本文件的最快方法是什么？

逐行读取文本文件的最快方法是什么？ 的相关文章

随机推荐

热门标签

逐行读取文本文件的最快方法是什么？的相关文章