按列快速串联数千个文件

2023-12-04

我在用R使用以下命令绑定约 11000 个文件:

dat <- do.call('bind_cols',lapply(lfiles,read.delim))

这慢得令人难以置信。我使用 R 是因为我的下游处理(例如创建绘图等)是在 R 中进行的。按列连接数千个文件的快速替代方案有哪些?

我想要完成三种类型的文件。它们看起来像这样:

[centos@ip data]$ head C021_0011_001786_tumor_RNASeq.abundance.tsv
target_id   length  eff_length  est_counts  tpm
ENST00000619216.1   68  26.6432 10.9074 5.69241
ENST00000473358.1   712 525.473 0   0
ENST00000469289.1   535 348.721 0   0
ENST00000607096.1   138 15.8599 0   0
ENST00000417324.1   1187    1000.44 0.0673096   0.000935515
ENST00000461467.1   590 403.565 3.22654 0.11117
ENST00000335137.3   918 731.448 0   0
ENST00000466430.5   2748    2561.44 162.535 0.882322
ENST00000495576.1   1319    1132.44 0   0

[centos@ip data]$ head C021_0011_001786_tumor_RNASeq.rsem.genes.norm_counts.hugo.tab
gene_id C021_0011_001786_tumor_RNASeq
TSPAN6  1979.7185
TNMD    1.321
DPM1    1878.8831
SCYL3   452.0372
C1orf112    203.6125
FGR 494.049
CFH 509.8964
FUCA2   1821.6096
GCLC    1557.4431

[centos@ip data]$ head CPBT_0009_1_tumor_RNASeq.rsem.genes.norm_counts.tab
gene_id CPBT_0009_1_tumor_RNASeq
ENSG00000000003.14  2005.0934
ENSG00000000005.5   5.0934
ENSG00000000419.12  1100.1698
ENSG00000000457.13  2376.9100
ENSG00000000460.16  1536.5025
ENSG00000000938.12  443.1239
ENSG00000000971.15  1186.5365
ENSG00000001036.13  1091.6808
ENSG00000001084.10  1602.7165

Thanks!


为了快速读取文件,我们可以使用fread from data.table进而rbind the list of data.table using rbindlist指定idcol=TRUE提供分组变量来识别每个数据集

library(data.table)
DT <- rbindlist(lapply(lfiles, fread), idcol=TRUE)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

按列快速串联数千个文件 的相关文章

  • 在 Shiny 中设置一个绘图缩放以匹配另一个绘图缩放

    我正在尝试使用情节重排获取一个图的 x 轴缩放限制 并将它们应用到 Shiny 中的另一个图 到目前为止 我可以从 plot1 x轴限制 获取相关的plotly relayout数据 将其转换 从数字到日期 并在绘制 plot2 之前将其提
  • 指定 R 中 hist() 中的 bin 数量?

    我尝试指定垃圾箱的数量hist R为10 如下 gt hist x breaks 10 但垃圾箱的数量并不完全是 10 我尝试了几个其他数量的垃圾箱 结果发生了同样的情况 hist says breaks可以指定 给出直方图单元格数量的单个
  • 将summary()写入as.data.frame以在ggplot / R中使用

    请查找 af 数据样本t below 我正在使用以下方法进行竞争风险分析etmCIF来自etm package 产生以下结果 这很好 但需要更好的图形 曾经有一个ggtrans etm函数将数据导入ggplot 然而 这个功能显然被删除了
  • R 中的 NA 替换函数

    我正在尝试替换矩阵中的 NA mat 零 我在用着mat is na mat lt 0 当我有 18946 个变量的 94531 个观察值或更小的矩阵时 效果很好 但我在 22752 个变量的 112039 个观察值的矩阵上尝试它 R 显示
  • 用于清除工作空间和转储存储的 R 全局函数

    我希望创建一个全局函数来清除我的工作区并转储我的内存 我将我的函数称为 cleaner 并希望它执行以下代码 remove list ls gc 我尝试在全局环境中创建该函数 但是当我运行它时 控制台仅打印该函数的文本 在我要获取的函数文件
  • 在 mac (iMac OSX ) 终端中远程运行脚本(r 脚本)到其他计算机

    我有一个小示例脚本 script p r 如下所示 打算在终端中运行 usr bin Rscript sink output capture txt mn lt mean 1 10 and so on much longer list of
  • 查找数据帧列表中同一列中的所有重复值并将其转换为 NULL

    我有一个清单BELGIAN COAST list包含数百个数据帧 df1 df2 15 列 X 1000 行 每个数据帧的最后一列称为Chemicals并包含一些字符 例如Sulfate or Ammonia 但是这一列有很多行Chemic
  • 如何在 R 中为传单中的数值变量设置不对称颜色渐变

    我想让传单调色板以零为中心 红白绿发散 我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时 我得
  • 如何获得属于五分位数的x?

    我正在大学学习使用 R 进行计量经济学项目 所以请原谅我的笨拙 基本上 使用并给出 一个矩阵 股票价格 行 天 列 公司股票价格 另一个矩阵 市值 行 天 列 公司市值 我必须收集第三个矩阵每天观察的属于市值分布第一五分位数的股票价格 然后
  • 错误:“rjags”的包或命名空间加载失败

    在终端的 conda 环境之一中 我能够成功安装包 rjags 但是 当我在该环境中运行 R 并运行库 rjags 时 出现以下错误 加载所需的包 coda 错误 rjags 的包或命名空间加载失败 rjags 的 loadNamespac
  • 在 R 中绘制对数正态概率密度

    我正在尝试在 R 中生成对数正态概率密度图 其中包含 3 个不同的均值对数和标准差对数 我尝试了以下方法 但我的图表太丑了 看起来一点也不好看 x lt seq 0 10 length 100 a lt dlnorm x meanlog 0
  • 从 R 中的 HTTPS 连接逐行读取

    当创建连接时open r 它允许逐行读取 这对于批量处理大数据流非常有用 例如这个脚本 https gist github com jeroenooms d33a24958d99bb969ac0通过一次读取 100 行来解析相当大的 gzi
  • R 编程:如何计算数据框中两个单元格之间的差异并将它们保存在新列中

    尝试学习 R 并陷入自相关示例中 我想将 x 的差异与 y 的差异进行回归 我在数据框中有 x 和 y 并且希望将 x2 x1 的差值保存在新列 例如 dx 中 我不知道该怎么做 我拥有的 data1 x y 5 3 8 9 3 1 1 5
  • 如何更改 Shiny 中 navbarPage 折叠的断点

    我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时 将导航元素折叠到菜单中 默认情况下 当浏览器宽度小于 940 像素时会触发折叠 有什么方法可以改变这一点 以便在稍大的浏
  • 解析,用三点参数替换

    让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
  • 比较 R 中的两个字符向量

    我有两个 ID 字符向量 我想比较这两个字符向量 特别是我对以下数字感兴趣 A和B各有多少个ID 有多少个ID在A中但不在B中 有多少个ID在B但不在A 我还想画维恩图 以下是一些可以尝试的基础知识 gt A c Dog Cat Mouse
  • 如何将此“for”循环转换为向量解

    这个问题与 将嵌入其他文本的长州名称转换为两个字母的州缩写 https stackoverflow com questions 25582518 convert long state names embedded with other te
  • R 中的字符串作为函数参数

    数据框chocolates列出了糖果的类型以及每种糖果的一组评级 ID sweetness filling crash snickers 0 67 0 55 0 40 milky way 0 81 0 53 0 56 我正在编写一个函数 它
  • 16 位以上整数的计算

    我有两个大整数 两者都超过 16 位 确切地说是 20 位 而且我知道由于双精度浮点运算 我在使用这些数字进行计算甚至将它们存储在变量中 独立于编程语言 时受到限制 不过 我想也许gmp图书馆应该处理它们 但不幸的是它没有 可以计算更大的整
  • 使用predictNLS围绕R中的拟合值创建置信区间?

    我想使用 R 中 propogate 包中的 PredictNLS 围绕一大组拟合值构建置信区间 作为示例 我将使用它们在函数描述中引用的数据集 https rdrr io github anspiess propagate man pre

随机推荐

  • 使用vba检查网络连接

    有没有办法在vba中检查网络连接 我正在使用这个命令 If Dir O Then MsgBox you have network connection Else MsgBox No Connection End If 但它不起作用 我收到运
  • auto it = vector.begin() 结果类型不可转换为 const_iterator

    容器需要提供iterator可以隐式转换为的类型const iterator 鉴于此 我正在尝试使用auto通过初始化一个对象vector begin 并使用该结果对象std distance其中 RHS 是const iterator 这
  • 如何在模态中传递当前行值?

    我正在表上执行 PHP CRUD 操作 当我单击编辑按钮而不是将其带到新页面时 我想在模式中显示值 我希望值以模态形式显示 我已经创建了一个模式 但我无法想出一种逻辑来传递单击编辑按钮的行的值 任何帮助将不胜感激 Table table c
  • Javascript -> 热键 -> 禁用输入字段

    好吧 我的热键可以工作 只是无法停止 document keypress function e if e which 13 Enter key is press do what you want else if e which 67 e w
  • 将按键绑定到使用 Visual Studio Code 中当前文件的 shell 命令

    有没有办法创建一个键绑定来在文件上执行 shell 命令 就像是 key ctrl shift e command run command touch file when editorTextFocus 我不想使用任务 因为这需要对于整个编
  • 在 Clojure 中调试? [关闭]

    Closed 这个问题需要多问focused 目前不接受答案 使用 repl 时调试 Clojure 代码的最佳方法是什么 还有 dotrace 它允许您查看所选函数的输入和输出 use clojure contrib trace defn
  • Tensorflow 对象检测在启动前被终止

    我正在运行 docker image tensorflow 1 1 0 我通过在本地克隆并为我的 docker 提供到该文件夹 的连接来添加tensorflow对象检测api github 我正在尝试重现他们的宠物例子 我相信我的所有代码和
  • Array.map + parseInt [重复]

    这个问题在这里已经有答案了 var timeSplit timeCaption innerText trim split 将产生一个数组 10 00 18 00 var startStr timeSplit 0 split 将产生一个数组
  • 如何从服务器异步检索图像

    我有一个NSMutableArray带有一些图像网址 图像的大小在 12KB 到 6MB 之间 我用AsycImageView类并实现 但是当大图像下载应用程序崩溃时 我在该类中为 maxsize 指定了 6 1024 1024 6MB 将
  • Woocommerce - 如果购物车中有特定变体,则隐藏付款方式

    在 Woocommerce 中 如果购物车中有特定产品变体 我想隐藏信用卡付款选项 请帮忙 Thanks 这就是我现在的工作 我为每个变体分配了一个单独的运输类别 我想在结帐时禁用特定的付款方式 但如果我可以定位特定的属性值 那就容易多了
  • 泽西岛的 GZip 编码

    我正在 Jersey 2 中编写 RESTful Web 服务 我想支持响应的 Gzip 编码 下列的这个答案 我启用了org glassfish jersey server filter EncodingFilter in my Reso
  • $展开空数组

    我有一个用户集合 其中每个文档都具有以下结构 id
  • 在快照视图中查找文件的本地副本

    我在一个工具中使用 ClearCase Automation Library CAL 它可以帮助我跟踪未集成的更改 现在我想扩展该工具 这样我也可以通过它进行签到 对于此功能 我需要找到快照视图的本地副本 虽然我可以询问 CC 哪个视图附加
  • .NET 的免费 UML 绘图库 [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 目前不接受答案 我正在寻找一个免费的 NET C 库 我可以在我的程序中使用它并简单地绘制 UML 图 尤其是类图 我尝试使用 Netron 图表库 但它有点棘手
  • 尝试从私有 ECR 中提取图像时出现“没有基本身份验证凭据”

    我的 Dockerfile 中间有以下行 用于从我的私有 ECR 检索图像 FROM dkr ecr ap southeast 1 amazonaws com prod ff03401 这是我在尝试构建此代码时在 AWS Codebuild
  • 如何查找链接的标题文本

    如何在 jquery 中找到链接的标题文本 您可以使用attr找到title属性 var title jQuery a attr title replace a with your own selector
  • EF Core - System.InvalidOperationException:ExecuteReader 需要打开且可用的连接。连接的当前状态已关闭

    我正在使用 Entity Framework Core 运行 ASP NET Core 1 0 Web 应用程序 当应用程序运行一段时间 24 48 小时 时 应用程序在对任何端点或静态资源的每个请求上开始崩溃 并引发错误System In
  • 复制范围,包括粘贴到 Outlook 电子邮件正文时的格式

    我已经搜索了这个问题 但仍然没有得到它的确切代码 我需要将数据透视表的颜色从 Excel 复制到 Outlook 主体 运行代码时 我得到了格式 但唯一的问题是表格的颜色变成了黑色和灰色 请帮助我弄清楚如何放置我需要的确切颜色 这是我的代码
  • 包括 Google 字体链接或导入?

    在页面上包含 Google 字体的首选方式是什么 Via the tag 通过样式表中的导入 import url https fonts googleapis com css2 famil
  • 按列快速串联数千个文件

    我在用R使用以下命令绑定约 11000 个文件 dat lt do call bind cols lapply lfiles read delim 这慢得令人难以置信 我使用 R 是因为我的下游处理 例如创建绘图等 是在 R 中进行的 按列