高效地按行应用函数

2024-03-15

我有一个包含多个列的数据框，其中包含一个诊断的信息。条目是TRUE, FALSE or NA。我创建了一个向量，将这些列总结如下：如果患者在某个时间被诊断出来（TRUE), then TRUE，如果唯一有效的条目是FALSE, then FALSE如果只是缺少，那么NA。将文本写成代码：

data.frame(a= c(FALSE, TRUE, NA, FALSE, TRUE, NA, FALSE, TRUE, NA),
           b= c(FALSE, FALSE, FALSE, TRUE, TRUE, TRUE, NA, NA, NA),
           expected= c(FALSE, TRUE, FALSE, TRUE, TRUE, TRUE, FALSE, TRUE, NA))

我需要逐行浏览所有列，我使用split。不幸的是，我的数据很大，而且需要很长时间。我现在所做的是

library(magrittr)
# big example data
df <- expand.grid(c(FALSE, TRUE, NA), c(FALSE, TRUE, NA)) %>%
  .[rep(1:nrow(.), 50000), ] %>%
  as.data.frame() %>%
  setNames(., nm= c("a", "b"))

# My approach
df$res <- df %>%
  split(., 1:nrow(.)) %>%
  lapply(., function(row_i){
    ifelse(all(is.na(row_i)), NA,
           ifelse(any(row_i, na.rm= TRUE), TRUE,
                  ifelse(any(!row_i, na.rm= TRUE), FALSE,
                         row_i)))
  }) %>%
  unlist()

有没有更有效的方法来解决这个任务？

使用矢量化解决方案pmax():

df$result <- as.logical(do.call(\(...) pmax(..., na.rm = TRUE), df[1:2]))

df
#       a     b expected result
# 1 FALSE FALSE    FALSE  FALSE
# 2  TRUE FALSE     TRUE   TRUE
# 3    NA FALSE    FALSE  FALSE
# 4 FALSE  TRUE     TRUE   TRUE
# 5  TRUE  TRUE     TRUE   TRUE
# 6    NA  TRUE     TRUE   TRUE
# 7 FALSE    NA    FALSE  FALSE
# 8  TRUE    NA     TRUE   TRUE
# 9    NA    NA       NA     NA

您还可以将所有参数合并到一个列表中以避免匿名函数do.call()。我将它重写为一个函数rowAnys补充rowSums/rowMeans in base.

rowAnys <- function(x) {
  as.logical(do.call(pmax, c(na.rm = TRUE, x)))
}

你也可以使用pmin实施 rowwise-all().

rowAlls <- function(x) {
  as.logical(do.call(pmin, c(na.rm = TRUE, x)))
}

df$any <- rowAnys(df[1:2])
df$all <- rowAlls(df[1:2])

df
#       a     b expected   any   all
# 1 FALSE FALSE    FALSE FALSE FALSE
# 2  TRUE FALSE     TRUE  TRUE FALSE
# 3    NA FALSE    FALSE FALSE FALSE
# 4 FALSE  TRUE     TRUE  TRUE FALSE
# 5  TRUE  TRUE     TRUE  TRUE  TRUE
# 6    NA  TRUE     TRUE  TRUE  TRUE
# 7 FALSE    NA    FALSE FALSE FALSE
# 8  TRUE    NA     TRUE  TRUE  TRUE
# 9    NA    NA       NA    NA    NA

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

logicaloperators

rowwise

高效地按行应用函数的相关文章

Pandas DataFrame：如果列为空，则复制列的内容

我有以下带有命名列和索引的 DataFrame a a b b 1 5 NaN 9 NaN 2 NaN 3 3 NaN 3 4 NaN 1 NaN 4 NaN 9 NaN 7 数据源导致某些列标题的复制方式略有不同例如如上所述某些列标
如何对同一列上的数据帧列表中的所有数据帧进行排序？

我有一个数据框列表dataframes list 举个例子我把dput dataframes list 在底部我想对列列表中的所有数据框进行排序enrichment 我可以对一个数据框进行排序 first dataframe lt da
.wav 文件长度/持续时间，无需读入文件

有没有办法提取有关 wav 文件长度持续时间的信息而无需在 R 中读取文件我有数千个这样的文件如果我必须阅读每个文件才能找到其持续时间那将需要很长时间 Windows 文件资源管理器为您提供了打开长度字段的选项并且您可以查看
如果满足 NaN 阈值，Python 将删除 DF 中的所有特征实例

Using df dropna thresh x inplace True 我可以成功删除至少缺少的行x非纳米值但因为我的 df 看起来像 2001 2002 2003 2004 bob A 123 31 4 12 bob B 41 1
计算例如具有多列 data.frames 的列表中的平均值

我有几个 data frames 的列表每个 data frame 有几列通过使用mean mylist first dataframe a我可以得到这个 data frame 中 a 的平均值但是我不知道如何计算列表中存储的所有 d
使用 broom 和 tidyverse 总结 r 平方游戏

我发布了一个问题here https stackoverflow com questions 48627287 getting adjusted r squared value for each line in a geom smooth
在 R 中创建一个运行计数变量？

我有一个足球比赛结果的数据集我希望通过创建一组类似于世界足球 Elo 公式的运行评级来学习 R 我遇到了麻烦在 Excel 中看似简单的事情在 R 中并不完全直观例如 4270 个观察中的前 15 个具有必要的变量 date t 1
使用 purrr 迭代替换数据帧列中的字符串

我想用purrr使用以下命令在数据框列上迭代运行多个字符串替换gsub 功能这是示例数据框 df lt data frame Year 2019 Text c rep a aa 5 rep a bb 3 rep a cc 2 gt df
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
多功能测试仪替代 system.time

我已经看到我认为是这样使用了类似于 system time 的函数它可以同时评估多个函数的时间并输出一个输出我不记得它是什么并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应有人知道我正在谈论的功能的名称位置吗你想要
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
如何使用 usmap 标记数字而不是名称？

我知道 usmap 有一个选项label in plot usmap 我想标记一些数字而不是状态名称我想 usmap 中应该有与州质心坐标相关的数据但我不知道如何找到它如果我能得到坐标然后我可以用它来标记数字geom text 这
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
以引用透明的方式从函数的省略号参数中提取符号

事情又发生了我正要按下发布答案按钮的问题被删除了我正在寻找一种方法来从函数的省略号参数中提取绑定到符号的对象的值以及符号也就是说我试图以引用透明的方式从省略号中提取符号我尝试过使用替代品和lazy dots 但没有成功 funct
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
在 r 中的 group_by 之后建模后取消列表列的嵌套

我想对所有组进行线性回归group by 将模型系数保存在列表列中然后使用 unnest 扩展列表列这里我用的是mtcars以数据集为例注我想用do here becausebroom tidy 不适用于所有型号 mtcars gt
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
旋转 Markdown 的表格 pdf 输出

我想将 pdf 上的表格输出旋转 90 度我正在使用 Markdown 生成报告并kable循环显示表格如果可以的话我想继续使用kable因为还有很多其他依赖于它的东西我没有包含在这个 MWE 中这是一个简单的例子使用iris数据集
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce

随机推荐

由于“java.lang.NullPointerException”，仪器运行失败

我正在尝试通过扩展测试类来为我的应用程序中的活动编写单元测试用例ActivityUnitTestCase 我之前可以成功运行测试用例但现在我在运行它们时总是遇到异常尽管我对处理非常熟悉NullPointerExceptions 我无法找
自定义按钮栏中按钮之间的分隔符

我已经按照描述制作了一个自定义按钮栏here https stackoverflow com questions 2422689 creating a custom compound button bar 现在我想在第一个和第二个按钮之间
使用 C++ 在浏览器中打开 HTML 文件

我正在使用 Visual Studio 用 C 编写一个程序我需要做的是创建一个 HTML 文件并在其中写入数据然后我希望在浏览器中打开它现在我可以创建文件写入内容但无法打开它有人可以帮忙吗这可能是一个简单的问题但我只是一个
将 JsonRequestBehavior 设置为 AllowGet 时可能会泄露哪些“敏感信息”

每次测试新的时我都会遇到同样的旧错误URL当我在浏览器的地址栏中returning Json 使用内置的MVC JsonResult helper 此请求已被阻止因为当此请求用于某个目的时敏感信息可能会泄露给第三方网站 GET requ
在 JQuery UI 小部件中访问 .selector

我正在使用一个插件用户界面小部件工厂 http blog nemikor com 2010 05 15 building stateful jquery plugins 使用基本的 JQuery 插件我可以通过执行以下操作来访问所使用的选
Python：“str”对象不可调用

我有以下代码 f open BigTestFile w str 0123456789 for i in range 100000000 if i 1000000 0 print str i 1000000 done f write str
字符 0 周围的值无效，NSJSONSerialization

我从我的服务器获取并得到有效的响应 void connection NSURLConnection connection didReceiveData NSData data Append the new data to the insta
对 EF 中的跟踪感到困惑（使用子集合更新实体）

所以我是 EF 新手我正在使用 EF6 并且我在理解这个概念时遇到问题我正在尝试使用子集合更新实体这是我的实体类 public class TimeSheet public int TimeSheetID get set public
如何在http请求中设置边界？

我正在尝试在 Ajax 请求中发送多部分表单数据我正在使用 node busboy 来解析多部分数据但它一直抛出错误 Error Multipart Boundary not found 我读过了here https stackove
将 multipart/form-data POST 到 Serverless Next.js API（在 Vercel / Now.sh 上运行）

我正在使用 Vercel Serverless 函数来处理上传到 Digital Ocean Spaces 的文件与 AWS S3 相同的 API 但是我在请求处理程序中处理多部分表单数据时遇到了问题在前端我使用 fetch 来发
TkInter：如何等待方法完成后的回调

使用 Tkinter after 方法时代码会继续传递而不等待回调完成 import tkinter as tk import tkinter ttk as ttk import time from datetime import da
Terraform 强制替换 AKS 节点池而不进行任何更改

我的 k8s 集群中的其他节点池有以下资源定义 resource azurerm kubernetes cluster node pool extra for each var node pools kubernetes cluster i
GCDAsyncSocket“didReadDataWithTag”从未使用 NSOperation 子类调用

在某些 XIB 文件的 getMyFile 方法中我正在创建一个 A 类 NSOperation 的子类的对象并将其添加到 myFileQueue NSOperationQueue 的对象中 myFileQueue MaxConcur
用Lua检查文件是否存在

如何使用Lua检查文件是否存在 Try function file exists name local f io open name r if f nil then io close f return true else return fa
根据特定条件将内容从 list1 复制到 list2

如果我有两个如此定义的泛型列表 type pMyList record a b integer c string end TMyList TList
Delphi thiscall 调用约定

我需要调用非静态 C 成员函数因此我需要使用thiscall调用约定 Delphi 不支持这种调用约定因此在调用任何成员函数之前我必须手动将参数推送到堆栈中 asm mov ecx myClassPointer end 这工作正常
为什么 getStringExtra 没有给出正确的输出？

我试图将一些字符串从一个意图传递到另一个意图但 adt 说键文本需要字符串但值是 android text SpannableString 返回默认值但我使用字符串作为键而不是它声称的那样这是我的第一个活动的代码 private
避免导入“sys.path.append(..)”

这不是我第一次畏缩imports在Python中但我想这是一个有趣的用例所以我想在这里询问它以获得更好的见解我的项目结构如下 sample project src init py module1 init py utils py mo
如何在页面刷新/加载时刷新验证码图像？

我想强制我的网站在每次加载时刷新验证码图像因此我有一个由 onload 事件触发的 javascript 方法这里我有以下行 document getElementById yw0 button click Firebug 没有检测到任
高效地按行应用函数

我有一个包含多个列的数据框其中包含一个诊断的信息条目是TRUE FALSE or NA 我创建了一个向量将这些列总结如下如果患者在某个时间被诊断出来 TRUE then TRUE 如果唯一有效的条目是FALSE then FALSE

高效地按行应用函数

高效地按行应用函数 的相关文章

随机推荐

热门标签

高效地按行应用函数的相关文章