在R中逐行读取大文件而不带标题

2023-12-04

我在 R 中有一个非常大的数据文件（千兆），如果我尝试用 R 打开它，我会收到内存不足错误。

我需要逐行读取文件并进行一些分析。我发现了一个关于这个问题的上一个问题，其中文件是由 n 行读取并跳转到带有 clump 的某些行。我已经使用了“Nick Sabbe”的答案，并添加了一些修改以满足我的需要。

考虑我有以下 test.csv 文件样本：

A    B    C
200 19  0.1
400 18  0.1
300 29  0.1
800 88  0.1
600 80  0.1
150 50  0.1
190 33  0.1
270 42  0.1
900 73  0.1
730 95  0.1

我想逐行读取文件的内容并执行分析。因此，我创建了以下循环来根据“Nick Sabbe”发布的代码进行读取。我有两个问题： 1）每次打印新行时都会打印标题。 2）尽管我删除了该列，但 R 的索引“X”列也被打印。

这是我正在使用的代码：

test<-function(){
 prev<-0

for(i in 1:100){
  j<-i-prev
  test1<-read.clump("file.csv",j,i)
  print(test1)
  prev<-i

}
}
####################
# Code by Nick Sabbe
###################
read.clump <- function(file, lines, clump, readFunc=read.csv,
                   skip=(lines*(clump-1))+ifelse((header) & (clump>1) & (!inherits(file, "connection")),1,0),
                   nrows=lines,header=TRUE,...){
if(clump > 1){
colnms<-NULL
if(header)
{
  colnms<-unlist(readFunc(file, nrows=1, header=F))
  #print(colnms)
}
p = readFunc(file, skip = skip,
             nrows = nrows, header=FALSE,...)
if(! is.null(colnms))
{
  colnames(p) = colnms
}
} else {
 p = readFunc(file, skip = skip, nrows = nrows, header=header)
}
p$X<-NULL   # Note: Here I'm setting the index to NULL
return(p)
}

我得到的输出：

       A       B    C
1      200      19   0.1
  NA   1       1     1
1  2   400     18   0.1
  NA   1       1    1
1  3   300     29   0.1
  NA   1       1    1
1  4   800     88   0.1
  NA   1       1    1
1  5   600     80   0.1

我想在剩下的阅读中摆脱：

 NA   1       1     1

另外，有什么方法可以让 for 循环在其他语言的文件结尾时停止，例如 EOF ？？？

也许这样的事情可以帮助你：

inputFile <- "foo.txt"
con  <- file(inputFile, open = "r")
while (length(oneLine <- readLines(con, n = 1)) > 0) {
  myLine <- unlist((strsplit(oneLine, ",")))
  print(myLine)
} 
close(con)

或使用扫描以避免分裂为@MatthewPlourde

我使用 scan ：我跳过标题，并且 Quiet = TRUE 不会有消息说明已经有多少项目

while (length(myLine <- scan(con,what="numeric",nlines=1,sep=',',skip=1,quiet=TRUE)) > 0 ){
   ## here I print , but you must have a process your line here
   print(as.numeric(myLine))

}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

csv

在R中逐行读取大文件而不带标题的相关文章

正则表达式字符串中第一个和最后一个非点的位置

我希望找到字符串的第一个和最后一个非点元素的位置理想情况下我想这样做regex在基地R 我已经写过R解决问题的代码不过我对一个感兴趣regex解决方案感谢您的任何建议这是一个示例数据集和R代码以获得所需的结果此代码拆分字符串并使
将数据框中的每个 x 个字符拆分为字符串

我知道这里有一些关于每隔一段时间分割一个字符串的答案nth字符例如this one https stackoverflow com questions 23208490 split each character in r and this
如何使用 usmap 标记数字而不是名称？

我知道 usmap 有一个选项label in plot usmap 我想标记一些数字而不是状态名称我想 usmap 中应该有与州质心坐标相关的数据但我不知道如何找到它如果我能得到坐标然后我可以用它来标记数字geom text 这
R 中的快速 QR 分解

我有大量矩阵需要对其执行 QR 分解并存储生成的 Q 矩阵进行归一化以便 R 矩阵在其对角线上具有正数除了使用之外还有其他方法吗qr 功能这是工作示例 system time Parameters for the matrix t
尝试读取 CSV 文件时出现“无法识别的字符串转义”

我正在尝试导入一个 csv文件以便我可以观看此视频 R ggplot2 图形直方图 http www youtube com watch v 47kWynt3b6M 我安装了所有正确的软件包包括ggplot以及相关的包视频中的第一个说
为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如
Purrr::map_df() 删除 NULL 行

使用时purrr map df 我偶尔会传递一个数据框列表其中一些项目是NULL 当我做 map df 返回行数少于原始列表的数据框我想发生的事情是这样的map df calls dplyr bind rows 它忽略了NULL价值观
以引用透明的方式从函数的省略号参数中提取符号

事情又发生了我正要按下发布答案按钮的问题被删除了我正在寻找一种方法来从函数的省略号参数中提取绑定到符号的对象的值以及符号也就是说我试图以引用透明的方式从省略号中提取符号我尝试过使用替代品和lazy dots 但没有成功 funct
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
如何仅删除单括号并保留配对的括号

你好我亲爱的老师 R 用户朋友们我最近开始认真学习正则表达式最近我遇到了一种情况我们只想保留配对括号并省略未配对的这是我的样本数据 structure list t1 c Book Pg 1 Website Online Jou
如何从 R keras 中的类似生成器的数据中评估（）和预测（）

我有以下代码数据集可以下载here https www dropbox com s qjt5o31oyqj10m8 data tar gz dl 0 or here https www kaggle com c dogs vs cats
Android Excel CSV 的 MIME 数据类型是什么？

我尝试了 text csv 甚至 application vnd ms excel 但 Excel 不会显示在选择列表中很多其他应用程序也可以 void shareCsv Uri uri Context context Intent in
read_html(url) 和 read_html(content(GET(url), "text")) 之间的区别

我正在看这个很棒的答案 https stackoverflow com a 58211397 3502164 https stackoverflow com a 58211397 3502164 解决方案的开头包括 library httr
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
以编程方式将字符串宽度值插入到 sprintf() 中

我正在尝试以编程方式将字符串宽度值插入到sprintf 格式期望的结果是 sprintf 20s hello 1 hello 但我想插入20在同一通话中即时进行因此它可以是任何号码我努力了 sprintf ds 20 hello 1
任意列中包含字符串的子集行

我有一个如下所示的数据集 Col1 Col2 Col3 abckel NA 7 jdmelw njabc NA 8 jdken jdne 如何对数据集进行子集化使其仅保留包含字符串 abc 的行最终预期输出 Col1 Col2 Col3
如何绘制具有显着性水平的箱线图？

前段时间问了一个关于绘制箱线图的问题Link1 https stackoverflow com questions 14604439 plot multiple boxplot in one graph 我有一些包含 3 个不同组或标签
如何使用 dplyr 独立过滤每列的行

我有以下内容 library tidyverse df lt tibble tribble gene colB colC a 1 2 b 2 3 c 3 4 d 1 1 df gt A tibble 4 x 3 gt gene colB c

随机推荐

vb.net 中的 lambda 表达式

我有一些东西让我绝对疯狂 Public Function GetAccountGroups As IList Of AccountGroup Dim raw account groups As IList Of AccountGroup r
Android：在 NDK 中的 jar 文件中链接预构建的共享库 (.so)

我有一个编译为 jar 文件的静态 java 库该 jar 使用 System loadLibrary 加载 so 库然后另一个 Android 应用程序项目静态链接该 jar 文件所有内容都是使用 NDK 中的 Android mk
命令“/bin/sh -c apt-get install erlang”返回非零代码：1

我是 Docker 的初学者使用 Ubuntu 18 04 作为主机在寻找解决方案时我得到的唯一结果就是增加虚拟机磁盘大小因为它是由于内存不足而发生的我没有使用虚拟机可用磁盘大小为 87 GB 以下是我的 docker 文件内容
将 Google Cloud App Engine 上的 Node.js 应用连接到 Google Cloud SQL 实例

我有一个使用 MySQL 的 Node 应用程序通过配置 json 连接 client mysql connection host something user something password something database
puppeteer page.evaluate 页面未定义

我想用 puppeteer 在输入中输入内容但它返回一个错误页面未定义 async function login const browser await puppeteer launch headless false const pag
如何从类型转换为泛型？

嘿那里给出的是这个类 public static class FooClass
如何制作 Android EditView“完成”按钮并在单击时隐藏键盘？

当用户点击EditView Android 打开键盘以便用户可以在EditView 问题是当用户写完后没有办法隐藏键盘用户必须按后退按钮才能隐藏键盘有没有办法显示Done键盘上的按钮会隐藏键盘吗首先你需要设置android ime
在 IE 上使用 jquery 访问 Iframe 内容

我正在尝试使用隐藏的 Iframe 上传文件并获取响应以下代码在 Firefox 上运行良好但在 IE 上无法运行它无法获取响应 Line var content j this contents find body last text
Android - 微调器的文本下拉列表/选择不显示

我正在使用此示例代码来填充 Spinner 数据是从数据库中读取的选择显示正确在本例中它显示绿色和红色 Spinner spinnerColor Spinner findViewById R id spinnertProfile
如何使用 SOCK_DGRAM 制作双向 unix 域套接字？

我正在尝试编写一个简单的 Unix 数据报服务器客户端但遇到了一些问题我想要的是一个监听数据报套接字并向原始发送者发送对收到的每条消息的回复的服务器我决定先尝试使用socat成为服务器并用 C 编写客户端我像这样运行 soca
Swagger UI 为空并给出 403

我正在使用 Spring Boot 并且已将 swagger 添加到我的依赖项中
如何将旧日志文件导入graylog作为输入？

我能够设置灰色日志服务器和graylog web 并能够在 apache2 tomcat 和其他应用程序的帮助下设置生成日志的输入灰色日志收集器 e g apache access type file path var log apache
Mac OSX 在构建 MonoDevelop iOS 应用程序时要求钥匙串访问

在 Mac 上的 MonoDevelop 中构建项目时我收到消息 MAC OS X 想要进行更改请键入管理员的名称和密码以允许此操作 MAC OSX 想要使用系统钥匙串我找到了帖子Mac OS X 想要在编译项目时使用系统钥匙串但这并
程序集 x86 NASM - 避免读取返回键

我刚刚开始学习汇编但没有找到任何有帮助的有用内容我正在创建一个简单的程序来读取用户输入基本上 section bss opA resw 1 opB resw 1 section text global start inputA mov
如何将 16 位 wav 转换为原始音频

我正在尝试使用 sox 将星号语音邮件转换为原始音频原始wav的编码信息是PCM S16 LE 所以我想我可以这样做sox msg0000 wav msg0001 raw但其中的原始文件是乱码根据 VLC 的说法与 6 秒的源文件相比
上传具有多种变体选项的新产品

我正在尝试通过 ruby 而不是使用 Rails 上传产品我已通过 API 上传了 100 多个产品但我无法上传具有多个选项值的产品即使我分配三个选项值它也不会填充其他两个这是脚本 require shopify api requ
NSArray initWithObjects: 是否保留对象？

当使用 initWithObjects 将对象添加到 NSArray 时任何人都可以为我确认这些项目被保留我很确定它们是但是找不到有关 initWithObjects 的任何地方提到它 CREATE DRINKS Coffee dri
从 httpsession 检索浏览器区域设置？

是否可以从 httpsession 对象 javax servlet http HttpSession 派生首选语言可以从 servletrequest 中获取它但我没有感谢您的任何想法斯文用户的首选区域设置可作为请求标头 Acc
在 Oracle DB 的 CLOB 字段中存储文件

我的 oracle 表中有一个具有 CLOB 数据类型的列如何在此列中存储 txt 文件以及如何检索同一文件下面是表定义 fileID Number logFile CLOB 提前致谢在 PL SQL 中将文件加载到 CLOB 中非常
在R中逐行读取大文件而不带标题

我在 R 中有一个非常大的数据文件千兆如果我尝试用 R 打开它我会收到内存不足错误我需要逐行读取文件并进行一些分析我发现了一个关于这个问题的上一个问题其中文件是由 n 行读取并跳转到带有 clump 的某些行我已经使用了 Ni

在R中逐行读取大文件而不带标题

我得到的输出：

在R中逐行读取大文件而不带标题 的相关文章

随机推荐

热门标签

在R中逐行读取大文件而不带标题的相关文章