读取 CSV 文件单列的更快方法

2024-05-02

我正在尝试阅读一个列CSV文件至R尽快。我希望将标准方法将列放入 RAM 所需的时间减少 10 倍。

我的动机是什么？我有两个文件；一个叫Main.csv这是 300000 行和 500 列，其中一个称为Second.csv即 300000 行和 5 列。如果我system.time()命令read.csv("Second.csv")，需要 2.2 秒。现在，如果我使用下面两种方法之一来读取第一列Main.csv（这是大小的 20%Second.csv因为它是 1 列而不是 5)，因此将花费 40 秒以上。这与读取整个 600 MB 文件所需的时间相同——显然是不可接受的。

Method 1

colClasses <- rep('NULL',500)

colClasses[1] <- NA
system.time(
read.csv("Main.csv",colClasses=colClasses)
) # 40+ seconds, unacceptable

Method 2

 read.table(pipe("cut -f1 Main.csv")) #40+ seconds, unacceptable

如何减少这个时间呢？我希望有一个R解决方案。

我会建议

scan(pipe("cut -f1 -d, Main.csv"))

这与最初的提案不同（read.table(pipe("cut -f1 Main.csv"))）以几种不同的方式：

因为文件是逗号分隔的并且cut默认情况下采用制表符分隔，您需要指定d,指定逗号分隔
scan()比read.table用于简单/非结构化数据读取。

根据 OP 的评论，这大约需要 4 秒而不是 40 秒以上。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

performance

Optimization

csv

IO

读取 CSV 文件单列的更快方法的相关文章

fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
更改闪亮 R 中的默认浏览器

我在 RStudio 中使用 01 hello 虽然在 IE 中默认打开程序时它不会显示直方图但即使在 Chrome 中滑块也不起作用我无法滑动条形图并看到直方图中的变化如何更改 R 中的默认浏览器以便闪亮启动 Chrome 而不
使用 C# 中的 CsvHelper 将不同文化的 csv 解析为十进制

C 中 CsvHelper 解析小数的问题我创建了一个从 byte 而不是文件获取 csv 文件的类并且它工作正常 public static List
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
为什么C++代码执行速度比java慢？

我最近用 Java 编写了一个计算密集型算法然后将其翻译为 C 令我惊讶的是 C 的执行速度要慢得多我现在已经编写了一个更短的 Java 测试程序和一个相应的 C 程序见下文我的原始代码具有大量数组访问功能测试代码也是如此 C 的
Android Excel CSV 的 MIME 数据类型是什么？

我尝试了 text csv 甚至 application vnd ms excel 但 Excel 不会显示在选择列表中很多其他应用程序也可以 void shareCsv Uri uri Context context Intent in
R 中用于调用 sed、rsync、ssh 等的 system() 的替代方案：函数是否存在，我应该编写自己的函数，还是我错过了重点？

最近我发现了base files命令与其他命令一起使用例如getwd write lines file show dir等等似乎有许多 bash 函数的 R 等价物我还在 R 中编写了一些函数来简化对ssh and rsync通过
read_html(url) 和 read_html(content(GET(url), "text")) 之间的区别

我正在看这个很棒的答案 https stackoverflow com a 58211397 3502164 https stackoverflow com a 58211397 3502164 解决方案的开头包括 library httr
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
如何在将两根柱子保持在一起的同时熔化柱子？

我有这种宽格式的数据我想将其转换为长格式 Cond Construct Line Plant Tube shoot weight shoot Tube root weight root 1 Standard NA NA 2 199 95
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
Draggable JS Bootstrap 模式 - 性能问题

对于工作中的项目我们在 JavaScript 中使用 Bootstrap Modal 窗口我们想让一些窗口可移动但我们遇到了 JQuery 的性能问题 myModal draggable handle modal header Exa
无法更改 RStudio 中的 R 版本

我的 RStudio V 0 99 491 无法更改 R 版本我以平常的方式行事Global Options gt R Version 然后它挂起并且不再工作或反应 R 运行良好的初始版本是R 3 1 0 我以前从未遇到过这样的问题也许
如何将plot中的单变量列表图表转换为ggplot2格式？

我正在搜索但仍然找不到一个非常简单的问题的答案我们如何使用 R 中的 ggplot2 生成一个变量的简单线图我正在分析时间序列数据并且想要对图表进行更复杂的操作我认为如果我使用 ggplot2 代替会更好plot It works
在 Shiny 中的用户会话之间共享反应数据集

我有一个相当大的反应数据集该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的数据更新频繁需要不断重新加载诚然重新加载可以增量完成并附加到 R 中的现有对象但事实并非如此然而目前尽管会话中的数据相同但此操作是针对
如何使用 dplyr 独立过滤每列的行

我有以下内容 library tidyverse df lt tibble tribble gene colB colC a 1 2 b 2 3 c 3 4 d 1 1 df gt A tibble 4 x 3 gt gene colB c

随机推荐

C 中的 NULL 是否需要/定义为零？

在我的 GCC 测试程序中 NULL 似乎为零但维基百科说NULL只需要指向不可寻址的内存有编译器做吗NULL非零我很好奇是否if ptr NULL 是比更好的练习if ptr NULL is guaranteed to be zer
如何禁用 AngularJS 中输入的修剪？

我发现了一些奇怪的行为默认情况下角度修剪模型值快速谷歌搜索并不能帮助我解决这个问题我发现了ng no trim指导性建议 ng trim等等但没有任何作用我在下面提供了一个代表这个问题的小片段 function Ctrl scop
解压缩 GZIP http 响应（使用 jersey 客户端 api、java）

有人可以告诉我在从某些 Http 调用获取响应时需要做什么才能解压缩 GZIP 内容吗为了进行调用我使用 Jersey Client API 请参阅下面的代码 String baseURI http api stackoverflow
在 C++ 中是否有一种简单的方法可以将由空格字符分隔的一行输入拆分为整数？

我是一名 C 初学者我一直在开发一个项目在该项目中您必须输入一些用空格分隔的整数并且程序必须输出所有可能的整数排列我知道在 python 中这可以使用 int item for item in input split 但我不知道
更改 NSTextView 中空格字符的宽度

我正在尝试制作一个阅读器应用程序来帮助有阅读困难的女孩一些研究表明仅仅改变文本背景和阴影的颜色确实可以帮助孩子们摆脱困境所以我试图让她这样做它只是一个带有按钮的大 NSTextView 因此她可以更改字体大小颜色背景颜色阴影
更改创建 XML 读取器时使用的 XmlDictionaryReader Quotas 对象的 MaxArrayLength 属性

我在向 C 服务发送或接收字节数组时遇到以下异常 There was an error deserializing the object of type System Byte The maximum array length quot
为什么 clojure future 会阻塞主线程？

我有一个简单的 lein 项目其中 main包含一个未来 def f future 42 defn main args println f 当我跑步时lein run它打印42但不返回我不明白为什么它不返回如何得到lein run回来
我应该复制 std::function 还是可以始终引用它？

在我的 C 应用程序使用 Visual Studio 2010 中我需要存储 std function 如下所示 class MyClass public typedef std function
Selenium 3.7 和 Firefox ESR 52.4.1 是否需要 geckodriver？

我的理解是当使用Selenium WebDriver来自 NuGet 的 v3 7 我需要当前版本的 geckodriver 才能与 Firefox ESR v52 4 1 交互但是我已经成功运行测试并成功通过withoutgecko
语义 UI 表单验证 - 仅当值不为空时验证某些表单字段

我有一个表单其中包含必填字段和可选字段我正在使用语义 UI 的表单验证行为来验证字段然而我想要实现的是表单验证行为仅在可选字段具有值时才验证可选字段可选字段示例 div class field div
调整 MailItem 中粘贴的 JPEG 的大小

我正在尝试从 Excel 工作表发送图片但尺寸非常小我怎样才能获得合适的尺寸基本上是整个屏幕这是代码 Sub send as a pic Copy range of interest Dim r As Range Set r Ran
Firebug 分析问题：“没有要分析的活动”

我想用一些 javascript jQuery 尝试一些不同的选项看看哪个是最快的但是我无法让分析正常工作这是我要测试的代码 this keypress function e console profile test retrieve
在工厂和控制器之间共享 http.get 数据

我成功创建了一个获取 php 文件输出 JSON 的工厂我的问题是如何从控制器内访问它 myApp angular module myApp myApp factory mainData http gt http get gethome
Kotlin 构造函数（主构造函数）

我有一个关于 Kotlin 构造函数的问题 class abc constructor a Int constructor a Int e Int class def a Int constructor a Int e Int this a
NSubstitute 不匹配 Linq 表达式

我正在实现一个存储库模式查询类并使用 NSubstitute 进行测试存储库接口 public interface IMyRepository IQueryable
在 PHP 中获取日期和数字工作日

我正在用 PHP 开发一个应用程序我需要使用日期和工作日的数字表示我尝试过以下方法 today date Y m d number date N strtotime today echo Today today weekday numb
安装 confluence-kafka 时“文件名或扩展名太长”？

我在使用 pip install confluence kafka 安装 confluence kafka 时遇到一些问题但我收到此错误文件名或扩展名太长详细信息如下 Collecting confluent kafka Using
google api 时刻错误 Google.GoogleApiException

我正在使用谷歌API 我尝试插入时刻但出现错误 Google GoogleApiException 未处理 Message 发生错误但错误响应无法反序列化来源 Google Apis 服务名称任务我的代码创建服务 var serv
是否可以限制仅 Microsoft Graph 应用程序的权限？

我正在开发一个应用程序来通过 Microsoft Graph 管理房间预订最后应用程序需要读取并取消预订到某个房间资源帐户的会议不幸的是只有许可Calendars ReadWrite这使应用程序有权读取和写入租户中的每个用户日历包
读取 CSV 文件单列的更快方法

我正在尝试阅读一个列CSV文件至R尽快我希望将标准方法将列放入 RAM 所需的时间减少 10 倍我的动机是什么我有两个文件一个叫Main csv这是 300000 行和 500 列其中一个称为Second csv即 300000

读取 CSV 文件单列的更快方法

读取 CSV 文件单列的更快方法 的相关文章

随机推荐

热门标签

读取 CSV 文件单列的更快方法的相关文章