R 数据结构的运算效率

2024-05-20

我想知道是否有任何关于操作效率的文档R，特别是那些与数据操作相关的。

例如：

我认为向数据框添加列是有效的，因为我猜您只是向链接列表添加一个元素。
我想添加行会更慢，因为向量保存在数组中C level你必须分配一个新的长度数组n+1并将所有元素复制过来。

开发人员可能不想将自己与特定的实现联系起来，但如果能有比猜测更可靠的东西继续下去就好了。

另外我还知道主要的R性能提示是尽可能使用向量操作，而不是loops.

各种口味怎么样apply?
那些只是hidden loops?
关于什么matrices vs. data frames?

数据 IO 是我在致力于学习 R 之前研究的功能之一。无论好坏，以下是我对这些问题的观察和解决方案/缓解措施：

1. That R 不处理大数据（>2 GB？）对我来说这是一个用词不当。默认情况下，常用数据输入函数将数据加载到 RAM 中。不是油嘴滑舌，但对我来说，这是一个功能而不是一个错误——只要我的数据适合我的可用 RAM，那就是我想要的地方。同样，SQLite 最受欢迎的功能之一是内存中选项——用户可以轻松选择将整个 dB 加载到 RAM 中。如果您的数据无法容纳在内存中，那么 R 可以通过连接到常见的 RDBMS 系统（RODBC、RSQLite、RMySQL 等）、通过简单的选项（如 filehash 包）以及通过当前技术/实践的系统（例如，我可以推荐ff http://ff.r-forge.r-project.org/）。换句话说，R 开发人员选择了一个合理的（可能也是最优的）默认值，很容易选择退出。

2、read.table的性能（read.csv、read.delim 等）是将数据导入 R 的最常见方法，只需选择退出 read.table 的一些默认参数即可将其改进 5 倍（根据我的经验，通常会提高很多） --R 的帮助 (?read.table) 中提到了对性能影响最大的那些。简而言之，R 开发人员告诉我们，如果您为参数“colClasses”、“nrows”、“sep”和“comment.char”提供值（特别是，如果您知道文件以 headers 或第 1 行的数据），您将看到显着的性能提升。我发现这是真的。

以下是我用于这些参数的片段：

要获取数据文件中的行数（在调用 read.table 时将此代码片段作为参数提供给参数“nrows”）：

as.numeric((gsub("[^0-9]+", "", system(paste("wc -l ", file_name, sep=""), intern=T))))

要获取每列的类：

function(fname){sapply(read.table(fname, header=T, nrows=5), class)}

注意：您不能将此代码片段作为参数传递，您必须先调用它，然后传递返回的值——换句话说，调用函数，将返回的值绑定到变量，然后传递变量作为调用 read.table 中参数“colClasses”的值：

3. 使用扫描。只需多一点麻烦，您就可以通过使用“scan”而不是“read.table”（“read.table”实际上只是“scan”的包装器）做得更好（优化“read.table”）。再说一次，这很容易做到。我使用“scan”单独输入每一列，然后在 R 中构建我的 data.frame，即 df = data.frame(cbind(col1, col2,....))。

4.使用R的容器用于持久性代替普通文件格式（例如“txt”、“csv”）。 R 的本机数据文件“.RData”是一种二进制格式，比压缩的（“.gz”）txt 数据文件稍小。您使用以下命令创建它们save(,)。您可以使用以下命令将其加载回 R 命名空间load()。与“read.table”相比，加载时间的差异是巨大的。例如，w/25 MB 文件（未压缩大小）

system.time(read.table("tdata01.txt.gz", sep=","))
=>  user  system elapsed 
    6.173   0.245   **6.450** 

system.time(load("tdata01.RData"))
=> user  system elapsed 
    0.912   0.006   **0.912**

5. 注意数据类型通常可以提高性能并减少内存占用。这一点对于从 R 中获取数据可能更有用。这里要记住的关键点是，默认情况下，R 表达式中的数字被解释为双精度浮点，例如，> typeof(5) 返回“double. ”比较每个合理大小的数组的对象大小，您可以看到其重要性（使用 object.size()）。因此，尽可能强制转换为整数。

最后，“apply”函数系列（以及其他函数）不是“隐藏循环”或循环包装器。它们是用 C 语言实现的循环——在性能方面差异很大。 [编辑：AWB 正确地指出，虽然 'sapply'、'tapply' 和 'mapply' 是用 C 实现的，但 'apply' 只是一个包装函数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

performance

R 数据结构的运算效率的相关文章

在 R 中打印具有长字符串的数据帧

让我们有一列包含长字符串的数据框 df lt data frame short rnorm 10 0 1 long replicate 10 paste rep sample letters runif 1 5 8 collapse 如何打
海量记录的bulk_create最佳实践

I use bulk create将 1 mio 记录插入到新表中需要 80 秒 Django 只使用一个 CPU 核心大约 25 CPU 但没有一个核心达到 100 我相信有改进的潜力这是代码 class Stock models
什么时候在“strsplit”中设置“perl=TRUE”不起作用（按预期或根本不起作用）？

我只是在尝试优化一些代码时做了一些基准测试并观察到strsplit with perl TRUE is faster比跑步strsplit with perl FALSE 例如 set seed 1 ff lt function paste
为什么 Python 中的无分支函数和内置函数速度较慢？

我发现了 2 个无分支函数它们可以在 python 中查找两个数字的最大值并将它们与 if 语句和内置 max 函数进行比较我认为无分支或内置函数将是最快的但最快的是 if 语句函数有人知道这是为什么吗以下是功能 If 语句 2
与保留模式 GUI 相比，使用立即模式 GUI 对性能有何影响？

我目前正在开发一个标准的 Windows 桌面应用程序标准意味着没有花哨的东西只是按钮文本滑块等在研究了一些 GUI 框架并被拒绝后我决定自己编写一个 GUI 框架他们全部由于这是一个业余爱好项目我也愿意尝试并决定将 GU
在 R 中进行 Cox 回归后，将预测危险比列添加到数据帧中

在 R 中运行 Cox PH 回归后我需要在数据框中添加预测风险比的列数据框是面板数据其中 numgvkey 如果公司标识符和年龄是时间标识符您可以从此链接下载一小部分日期 https drive google com file
将密度曲线拟合到 R 中的直方图

R中有没有可以将曲线拟合到直方图的函数假设您有以下直方图 hist c rep 65 times 5 rep 25 times 5 rep 35 times 10 rep 45 times 4 看上去很正常但其实是歪曲的我想拟合一条倾
try-catch 块是否会降低性能[重复]

这个问题在这里已经有答案了 This link http www cplusplus com doc tutorial exceptions states 为了捕获异常我们必须将一部分代码放在异常下检查这是通过将这部分代码包含在 tr
将summary()写入as.data.frame以在ggplot / R中使用

请查找 af 数据样本t below 我正在使用以下方法进行竞争风险分析etmCIF来自etm package 产生以下结果这很好但需要更好的图形曾经有一个ggtrans etm函数将数据导入ggplot 然而这个功能显然被删除了
R read_excel：libxls 错误：无法解析文件

我试图使用 readxl read excel 将 xls 文件读入 R 但它给出了以下错误 Error filepath data xls libxls error Unable to parse file 还尝试了 readxl exc
将 JSON URL 转换为 R 数据帧

我在将 JSON 文件从 API 转换为 R 中的数据帧时遇到问题例如 URL 我尝试了 S O 的一些不同建议包括将json数据转换为R中的数据框 https stackoverflow com questions 28683769
使用底格里斯河从纬度/经度获取人口普查区

我有相对较多的坐标我想获取其人口普查区除了 FIPS 代码我知道我可以使用以下命令查找各个纬度经度对call geolocator latlon 已完成here https stackoverflow com questions 5
如何让R使用所有处理器？

我有一台运行 Windows XP 的四核笔记本电脑但查看任务管理器 R 似乎一次只使用一个处理器如何让 R 使用全部四个处理器并加速我的 R 程序我有一个基本系统我使用它在 for 循环上并行化我的程序一旦您了解需要做什么此方
将列表中的列转换为 R 中的数据框

我有使用 R 创建的以下列表 set seed 326581 X1 rnorm 10 0 1 Y1 rnorm 10 0 2 data data frame X1 Y1 lst lt replicate 100 df smpl lt dat
如何在 R 中为传单中的数值变量设置不对称颜色渐变

我想让传单调色板以零为中心红白绿发散我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时我得
从 R 环境中删除对象

我正在阅读 Hadley 的 Advanced R 在第 8 章中他说我们可以使用以下方法从环境中删除对象 rm 但是移除该物体后我仍然可以看到该物体这是我的代码 e lt new env e a lt 1 e b lt 2 e a
从 R 中的 HTTPS 连接逐行读取

当创建连接时open r 它允许逐行读取这对于批量处理大数据流非常有用例如这个脚本 https gist github com jeroenooms d33a24958d99bb969ac0通过一次读取 100 行来解析相当大的 gzi
将 VLMC 拟合到很长的序列

我正在尝试将 VLMC 拟合到最长序列为 296 个状态的数据集我这样做如下所示 Load libraries library PST library RCurl library TraMineR Load and transform d
在另一个 Rmd 中运行选定的块

我已经在源 Rmd 文件中运行了分析并且希望仅使用few来自源的块我已经看到了一些关于从源 Rmd 中提取所有块的答案来自另一个 Rmd 中的 Rmd 文件的源代码 https stackoverflow com questions 4
1.2.840.113556.1.4.1941 (LDAP_MATCHING_RULE_IN_CHAIN) 存在性能问题？

LDAP 搜索有一些内置规则其中之一是LDAP MATCHING RULE IN CHAIN From MSDN https msdn microsoft com en us library aa746475 v vs 85 aspx 1

随机推荐

如何以xamarin形式使用消息中心

我正在尝试使用消息中心而不是 xamarin 表单中的 Messenger 我不知道消息中心我尝试使用以下代码以 xamarin 表单订阅和发送消息 MessagingCenter Send this TodoTable Todo 但我不
Jenkins 共享库：“java.lang.NoSuchMethodError：没有这样的 DSL 方法”

我正在尝试通过 Jenkinsfile 和共享库创建 Jenkins 管道我通过 Web UI 创建了一个作业来获取 Jenkinsfile 它工作正常但是共享库内容似乎无法被 Jenkins 识别下面是 Jenkinsfile 和
链路范围 IPv6 多播数据包突然无法在 MacBook Pro 上路由？

这是一个有点晦涩的问题但我很困惑我想也许有人对这个问题有更多的线索我的同事已经在他的 MacBook Pro 上成功运行了一个使用 IPv6 多播的内部应用程序几个月了但今天 Mac 决定停止路由多播数据包特别是该程序打印此错误
MS Teams 应用程序：访问此应用程序时出现问题

The users on MS Teams desktop reported multiple issues with our MS Teams app They see the following error on MS Teams De
WinForms：如何确定窗口是否不再活动（没有子窗口具有焦点）？

我的应用程序使用多个窗口我想隐藏一个特定窗口以防应用程序失去焦点当活动窗口不是应用程序窗口时 source https stackoverflow com questions 466354 how can i tell if a wi
在C语言中使用“void”

我很困惑为什么我们需要通过void转换为 C 函数 int f void return 0 versus int f return 0 什么是正确的做法以及为什么 In C int f 是一种老式的声明它说f需要固定但未指定数量和类型的参
列表应该如何转换为具体的实现？

假设我正在使用一个我不知道源代码的库它有一个返回列表的方法如下所示 public List
如何在React中的Material-UI选择框中设置默认值？

我在用选择框 https material ui com demos selects 来自材料用户界面我想显示默认选择的选择值选项但之后用户无法选择此选项
具有子列表属性映射问题的自动映射器

我有以下型号 Models public class Dish Required public Int64 ID get set Required public string Name get set Required public str
RSA OAEP、Golang 加密、Java 解密 -BadPaddingException：解密错误

我正在尝试解密使用 RSA OAEP 在 Golang 中加密的字符串但出现 BadPaddingException 解密错误很难弄清楚我错过了什么这是Golang加密方法 func encryptString rootPEM io
jq中如何分组？

这是 json 文档 name bucket1 clusterName cluster1 name bucket2 clusterName cluster1 name bucket3 clusterName cluster2 name bu
按百分比设置 bootstrap 模态身高

我正在尝试制作一个带有主体的模态当内容变得太大时该主体会滚动但是我希望模式能够响应屏幕尺寸当我将最大高度设置为 40 时它没有任何效果但是如果我将最大高度设置为 400px 它会按预期工作但不会响应我确信我只是错过了一些
如何在 Zend MVC 中实现 SSL

我之前已经通过使用特定的安全文件夹例如服务器上的 https 文件夹与 http 文件夹实现了安全页面我已经开始使用 Zend Framework 并希望应用程序的某些部分例如登录使用 https 我在谷歌上搜索过甚至在这里搜索
Azure VM 上的 MongoDb 连接超时

将我的 Azure Web 应用程序连接到 Azure VM 上托管的 MongoDb 时我遇到一些超时问题 2015 12 19T15 57 47 330 0100 I NETWORK Socket recv errno 10060 A
基本的多对多sql选择查询

我认为这应该很容易但它却在逃避我我的帐户和帐户组之间存在多对多关系一个帐户可以位于零个或多个组中因此我使用标准连接表 Accounts ID BankName AcctNumber Balance AccountGroups ID
查找哪些页面不再与写入时复制共享

假设我在 Linux 中有一个进程我从中fork 另一个相同的过程后forking 因为原始进程将开始写入内存 Linux写时复制机制将为进程提供与分叉进程使用的不同的唯一物理内存页在执行的某个时刻我如何知道原始进程的哪些页面已被写
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
Facebook PHP SDK - 如何获取访问令牌？

我正在尝试从我的应用程序在用户的 Facebook 墙上发帖用户授予应用程序在他的墙上发布的权限并且我在数据库中有用户ID 我需要自动发送帖子而无需用户再次登录我的代码是 try require once dirname FILE
以编程方式将 TextView 添加到主屏幕小部件

我想以编程方式将文本视图控件添加到我的主屏幕小部件在下面的示例中我使用 TextView 填充 Linearlayout 但是这里应该如何使用 RemoteView 它只接受 xml 资源布局作为参数 public class MyWi
R 数据结构的运算效率

我想知道是否有任何关于操作效率的文档R 特别是那些与数据操作相关的例如我认为向数据框添加列是有效的因为我猜您只是向链接列表添加一个元素我想添加行会更慢因为向量保存在数组中C level你必须分配一个新的长度数组n 1并将所有元素复

R 数据结构的运算效率

R 数据结构的运算效率 的相关文章

随机推荐

热门标签

R 数据结构的运算效率的相关文章