C++ 中读取大型 CSV 文件的性能问题

2024-01-18

我需要读取许多大的 CSV 文件以在 C++ 中进行处理（范围从几 MB 到数百 MB）首先，我使用 fstream 打开，使用 getline 读取每一行并使用以下函数分割每一行”

template < class ContainerT >
void split(ContainerT& tokens, const std::string& str, const std::string& delimiters = " ", bool trimEmpty = false)
{
std::string::size_type pos, lastPos = 0, length = str.length();

using value_type = typename ContainerT::value_type;
using size_type = typename ContainerT::size_type;

while (lastPos < length + 1)
{
    pos = str.find_first_of(delimiters, lastPos);
    if (pos == std::string::npos)
    {
        pos = length;
    }

    if (pos != lastPos || !trimEmpty)
        tokens.push_back(value_type(str.data() + lastPos,
        (size_type)pos - lastPos));

    lastPos = pos + 1;
}
}

我尝试了 boost::split、boost::tokenizer 和 boost::sprint 并发现上面给出了迄今为止最好的表现。之后，我考虑将整个文件读入内存进行处理，而不是保持文件打开，我使用以下函数通过以下函数读取整个文件：

void ReadinFile(string const& filename, stringstream& result)
{
ifstream ifs(filename, ios::binary | ios::ate);
ifstream::pos_type pos = ifs.tellg();

//result.resize(pos);
char * buf = new char[pos];
ifs.seekg(0, ios::beg);
ifs.read(buf, pos);
result.write(buf,pos);
delete[]buf;

}

这两个函数都是从网络上的某个地方复制的。然而，我发现保持文件打开或读入在性能上没有太大差异整个文件。性能捕获如下：

Process 2100 files with boost::split (without read in whole file) 832 sec
Process 2100 files with custom split (without read in whole file) 311 sec
Process 2100 files with custom split (read in whole file) 342 sec

下面请找到一种类型文件的示例内容，我有 6 种类型需要处理。但一切都是相似的。

a1,1,1,3.5,5,1,1,1,0,0,6,0,155,21,142,22,49,1,9,1,0,0,0,0,0,0,0
a1,10,2,5,5,1,1,2,0,0,12,0,50,18,106,33,100,29,45,9,8,0,1,1,0,0,0
a1,19,3,5,5,1,1,3,0,0,18,0,12,12,52,40,82,49,63,41,23,16,8,2,0,0,0
a1,28,4,5.5,5,1,1,4,0,0,24,0,2,3,17,16,53,53,63,62,43,44,18,22,4,0,4
a1,37,5,3,5,1,1,5,0,0,6,0,157,22,129,18,57,11,6,0,0,0,0,0,0,0,0
a1,46,6,4.5,5,1,1,6,0,0,12,0,41,19,121,31,90,34,37,15,6,4,0,2,0,0,0
a1,55,7,5.5,5,1,1,7,0,0,18,0,10,9,52,36,86,43,67,38,31,15,5,7,1,0,1
a1,64,8,5.5,5,1,1,8,0,0,24,0,0,3,18,23,44,55,72,57,55,43,8,19,1,2,3
a1,73,9,3.5,5,1,1,9,1,0,6,0,149,17,145,21,51,8,8,1,0,0,0,0,0,0,0
a1,82,10,4.5,5,1,1,10,1,0,12,0,47,17,115,35,96,36,32,10,8,3,1,0,0,0,0

我的问题是：

1 为什么读入整个文件会比不读入整个文件表现更差？

2 还有其他更好的字符串分割函数吗？

3 ReadinFile函数需要读取到缓冲区然后写入字符串流来处理，有什么方法可以避免这种情况吗？即直接进入 stringstream

4 我需要使用 getline 来解析每一行（使用 \n）并使用 split 来标记每一行，有类似 getline for string 的函数吗？例如获取行_str？以便我可以直接读入字符串

5 如何将整个文件读入字符串，然后用“\n”将整个字符串拆分为向量，然后用“,”将向量中的每个字符串拆分来处理？这样效果会更好吗？ string 的限制（最大大小）是多少？

6 或者我应该定义一个像这样的结构（基于格式）

struct MyStruct {
  string Item1;
  int It2_3[2];
  float It4;
  int ItRemain[23];
};

并直接读入向量？这个怎么做？

多谢。

Regds

林志峰

每当您必须关心性能时，最好尝试替代方案并衡量它们的性能。有些帮助实现您在下面的问题中询问的一个选项......

给出您想要阅读的每个结构，例如您的示例......

struct MyStruct {
  string Item1;
  int It2_3[2];
  float It4;
  int ItRemain[23];
};

...您可以使用读取和解析字段fscanf http://en.cppreference.com/w/cpp/io/c/fscanf。不幸的是，它是一个 C 库函数，不支持std::strings，因此您需要为每个字符串字段创建字符数组缓冲区，然后从那里复制到结构的字段。全部完成，类似：

char Item1[4096];
MyStruct m;
std::vector<MyStruct> myStructs;
FILE* stream = fopen(filename, "r");
assert(stream);
while (fscanf(stream, "%[^,],%d,%d,%f,%d,%d,%d,%d...",
              Item1, &m.It2_3[0], &m.It2_3[1], &m.It4,
              &m.ItRemain[0], &m.ItRemain[1], &m.ItRemain[2], ...) == 27)
{
    myStructs.push_back(m);
    myStructs.back().Item1 = Item1;  // fix the std::strings
}
fclose(stream);

（只需输入正确的数量%d格式字符串中的 s 并完成其他ItRemain指数）。

另外，我不太愿意推荐它，因为它是您可能会遇到的更高级的编程，但是内存映射文件并编写您自己的解析很可能比fscanf上面的方法（但同样，在您的硬件上进行测量之前您不会知道）。如果您是一名科学家，正在尝试做一些严肃的事情，也许可以与专业程序员合作来为您完成这项工作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

C++ 中读取大型 CSV 文件的性能问题的相关文章

没有强命名的代码签名是否会让您的应用程序容易被滥用？

尝试了解authenticode代码签名和强命名我是否正确地认为如果我对引用一些 dll 非强命名的 exe 进行代码签名恶意用户就可以替换我的 DLL 并以看似由我签名但正在运行的方式分发应用程序他们的代码假设这是真的那么您似
以文化中立的方式将字符串拆分为单词

我提出了下面的方法旨在将可变长度的文本拆分为单词数组以进行进一步的全文索引处理删除停止词然后进行词干分析结果似乎不错但我想听听关于这种实现对于不同语言的文本的可靠性的意见您会建议使用正则表达式来代替吗请注意我选择不使用 S
为什么两个不同的 Base64 字符串的转换会返回相等的字节数组？

我想知道为什么从 base64 字符串转换会为不同的字符串返回相同的字节数组 const string s1 dg const string s2 dq byte a1 Convert FromBase64String s1 byte a2
在结构中使用 typedef 枚举并避免类型混合警告

我正在使用 C99 我的编译器是 IAR Embedded workbench 但我认为这个问题对于其他一些编译器也有效我有一个 typedef 枚举其中包含一些项目并且我向该新类型的结构添加了一个元素 typedef enum fo
在哪里可以找到列出 SSE 内在函数操作的官方参考资料？

是否有官方参考列出了 GCC 的 SSE 内部函数的操作即头文件中的函数除了 Intel 的 vol 2 PDF 手册外还有一个在线内在指南 https www intel com content www us en docs in
类模板参数推导 - clang 和 gcc 不同

下面的代码使用 gcc 编译但不使用 clang 编译 https godbolt org z ttqGuL template
BitTorrent 追踪器宣布问题

我花了一点业余时间编写 BitTorrent 客户端主要是出于好奇但部分是出于提高我的 C 技能的愿望我一直在使用理论维基 http wiki theory org BitTorrentSpecification作为我的向导我已经建
堆栈溢出：堆栈空间中重复的临时分配？

struct MemBlock char mem 1024 MemBlock operator const MemBlock b const return MemBlock global void foo int step 0 if ste
C#中如何移动PictureBox？

我已经使用此代码来移动图片框pictureBox MouseMove event pictureBox Location new System Drawing Point e Location 但是当我尝试执行时图片框闪烁并且无法识别确切
C++ OpenSSL 导出私钥

到目前为止我成功地使用了 SSL 但遇到了令人困惑的障碍我生成了 RSA 密钥对之前使用 PEM write bio RSAPrivateKey 来导出它们然而手册页声称该格式已经过时实际上它看起来与通常的 PEM 格式不同相
创建链表而不将节点声明为指针

我已经在谷歌和一些教科书上搜索了很长一段时间我似乎无法理解为什么在构建链表时节点需要是指针例如如果我有一个节点定义为 typedef struct Node int value struct Node next Node 为什么为了
显示UnityWebRequest的进度

我正在尝试使用下载 assetbundle统一网络请求 https docs unity3d com ScriptReference Networking UnityWebRequest GetAssetBundle html并显示进度根
如何在整个 ASP .NET MVC 应用程序中需要授权

我创建的应用程序中除了启用登录的操作之外的每个操作都应该超出未登录用户的限制我应该添加 Authorize 每个班级标题前的注释像这儿 namespace WebApplication2 Controllers Authorize p
什么时候虚拟继承是一个好的设计？ [复制]

这个问题在这里已经有答案了 EDIT3 请务必在回答之前清楚地了解我要问的内容有 EDIT2 和很多评论有或曾经有很多答案清楚地表明了对问题的误解我知道这也是我的错对此感到抱歉嗨我查看了有关虚拟继承的问题 class B p
如何查看网络连接状态是否发生变化？

我正在编写一个应用程序用于检查计算机是否连接到某个特定网络并为我们的用户带来一些魔力该应用程序将在后台运行并执行检查是否用户请求托盘中的菜单我还希望应用程序能够自动检查用户是否从有线更改为无线或者断开连接并连接到新网络并执行魔
覆盖子类中的字段或属性

我有一个抽象基类我想声明一个字段或属性该字段或属性在从该父类继承的每个类中具有不同的值我想在基类中定义它以便我可以在基类方法中引用它例如覆盖 ToString 来表示此对象的类型为 property field 我有三种方法可以
如何使用 C# / .Net 将文件列表从 AWS S3 下载到我的设备？

我希望下载存储在 S3 中的多个图像但目前如果我只能下载一个就足够了我有对象路径的信息当我运行以下代码时出现此错误遇到错误消息读取对象时访问被拒绝我首先做一个亚马逊S3客户端基于我的密钥和访问配置的对象连接到服务器然后创
对现有视频添加水印

我正在寻找一种用 C 在视频上加水印的方法就像在上面写文字一样图片或文字标签我该怎么做谢谢您可以使用 Nreco 视频转换器代码看起来像 NReco VideoConverter FFMpegConverter wrap new
WPF/C# 将自定义对象列表数据绑定到列表框？

我在将自定义对象列表的数据绑定到ListBox in WPF 这是自定义对象 public class FileItem public string Name get set public string Path get set 这是列表
测试用例执行完成后，无论是否通过，如何将测试用例结果保存在变量中？

我正在使用 NUNIT 在 Visual Studio 中使用 Selenium WebDriver 测试用例的代码是我想在执行测试用例后立即在变量中记录测试用例通过或失败的情况我怎样才能实现这一点 NUnit 假设您使用 NUnit

随机推荐

当 closeonselect 为 false 时关闭 select2

当您点击离开时是否有更好的方法来关闭 select2 我把它关闭了 document click function event if event target hasClass select2 selection rendered eve
使用 sip.js 录制 SIP 通话中的麦克风和音频

晚上好堆栈溢出我的一个项目确实需要帮助我在该项目中使用 sip js 和 VoIP 来拨打电话号码 The Goal 我想允许用户录制音频和麦克风并将数据保存在服务器上以 base64 编码或作为文件因此对话结束后我可以再次听到
kotlin.UninitializedPropertyAccessException：lateinit 属性首选项尚未初始化

我在多个项目中使用了共享首选项的代码它工作正常但现在当我在另一个项目中应用相同的代码时它停止工作以下是错误 kotlin UninitializedPropertyAccessException lateinit 属性首选项尚未初始
LLVM - 如何将 AST 转换为 IR

我知道一个AST解析器生成的数据用于在前端生成 IR 我想知道如何解析 AST 然后将其转换为 IR 问题汇编或位码 AST 是一棵树从 AST 到 IR 的转换涉及哪些步骤发射LLVM IR from Clang ASTs发生在 Cl
绘制大规模的networkx图：数组太大

我正在尝试绘制带有加权边的网络图但现在我遇到了一些困难正如标题所示这张图确实很大节点数量 103362 边数 1419671 当我尝试使用以下代码绘制该图时 pos nx spring layout G nx draw G node
子图是重叠的轴标签[重复]

这个问题在这里已经有答案了我在 python 中创建了一个包含多个子图的图形我还在图中的一些轴上添加了各种轴标签举些例子 plt xlabel Phase circ fontsize 10 但我注意到当生成最终图形时其他子图可以重
如何在所有ajax调用中向URL添加参数？

我有一个使用 jQuery 的 Backbone 应用程序并且想要附加一个sessionId所有 ajax 调用的 URL 参数我怎样才能在 Backbone 或 jQuery 中做到这一点也许以全局方式而不重写 Backbone S
使用 Angular 2 生成 Docx 文件

我正在使用 angular2 我想使用对象生成 docx 文件我希望我的 docx 文件包含页脚页眉表格等我能想到的最佳解决方案是首先创建一个 HTML 文件然后将其转换为 docx 文件但这似乎不对有没有更简单更方便的方法
如何在 jasmine 规范中使用 $promise.then 模拟 AngularJS $resource

I use resource设置一些API调用在测试时我采用了注入的通用方法 q然后做 mockMyService doSomethingAsync andReturnValue q when successResponse 这已经很有效
xunit 以编程方式添加新测试/“[事实]”？

我们有一个充满 JSON 文本文件的文件夹需要将其设置为单个 URI 目前这一切都是通过单个 xUnit Fact 完成的如下所示 Fact public void TestAllCases PileOfTests pot new P
Xamarin.iOS 发布版本中的 Console.WriteLine 调用会发生什么情况？

使用 XCode 开发 iOS 应用程序时可以使用 NSLog 调用将信息写入控制台以进行调试在 Xamarin iOS 中可以使用 Console WriteLine 完成相同的操作当运行应用程序的发布版本时如果没有附加调试器
如何让customAdapter填充gridview高度

我正在开发数独应用程序布局为 9x9 GridView 每个 GridView 包括 9 个由 customAdapter 提供的 Textview 我想让 9 个 TextView 填充每个 GridView 的高度如何 This i
为什么对于没有通过方法反射获取返回类型的 Task，Type.IsGenericType 返回 TRUE，而 typeof(Task).IsGenericTyp 返回 FALSE

有人可以解释一下吗根据文档是泛型类型 https learn microsoft com en us dotnet api system type isgenericparameter view netframework 4 7 2 指示
原子引用的保证

a 的语义是什么AtomicReference 如果我做 AtomicReference
为什么空的 MongoDB 数据库这么大？

当我使用命令创建新的 mongoDB 数据库实例时 mongod dbpath db where db是我在调用命令的目录中创建的文件夹运行此命令并检查目录的大小后我发现一切都结束了300MB大小当其中没有数据时这里发生了什么谢谢
如何配置 Spring Sockjs Java 客户端消息转换器

我有一个使用 STOMP 的 SockJS Java 客户端是基于这个https github com rstoyanchev spring websocket portfolio blob master src test java or
Ember.js 中的多种布局？

来自 Rails 背景的您可以拥有多个布局例如匿名用户页面和经过身份验证的页面 Ember 可以做到这一点吗我尝试在我的 UsersRouter 中声明一个新的 templateName 但没有成功我还检查了本指南 http emb
如何指定或获取 NativeScript 文本字段的资源 ID

我们在我们的移动应用程序中使用带有 Angular 的 NativeScript 我想使用 Google Play 预发布报告功能但我们的应用程序需要输入密码 Google Play 允许指定密码但您需要一个资源名称以便测试脚本可以识
.click() 在 IE11 中拒绝访问

当尝试调用 click of an anchor tag to auto click网址该代码在所有浏览器中都可以正常工作除了Internet Explorer v11 任何帮助将不胜感激 var strContent a b c n1
C++ 中读取大型 CSV 文件的性能问题

我需要读取许多大的 CSV 文件以在 C 中进行处理范围从几 MB 到数百 MB 首先我使用 fstream 打开使用 getline 读取每一行并使用以下函数分割每一行 template lt class ContainerT g

C++ 中读取大型 CSV 文件的性能问题

C++ 中读取大型 CSV 文件的性能问题 的相关文章

随机推荐

热门标签

C++ 中读取大型 CSV 文件的性能问题的相关文章