删除缺失超过 x% 的列/行

2023-12-13

我想删除所有超过 50% 的列或行NAs 在数据框中。

这是我的解决方案：

# delete columns with more than 50% missings
miss <- c()
for(i in 1:ncol(data)) {
  if(length(which(is.na(data[,i]))) > 0.5*nrow(data)) miss <- append(miss,i) 
}
data2 <- data[,-miss]


# delete rows with more than 50% percent missing
miss2 <- c()
for(i in 1:nrow(data)) {
  if(length(which(is.na(data[i,]))) > 0.5*ncol(data)) miss2 <- append(miss2,i) 
}
data <- data[-miss,]

但我正在寻找更好/更快的解决方案。

我也很感激dplyr解决方案

要删除具有一定数量 NA 的列，您可以使用colMeans(is.na(...))

## Some sample data
set.seed(0)
dat <- matrix(1:100, 10, 10)
dat[sample(1:100, 50)] <- NA
dat <- data.frame(dat)

## Remove columns with more than 50% NA
dat[, which(colMeans(!is.na(dat)) > 0.5)]

## Remove rows with more than 50% NA
dat[which(rowMeans(!is.na(dat)) > 0.5), ]

## Remove columns and rows with more than 50% NA
dat[which(rowMeans(!is.na(dat)) > 0.5), which(colMeans(!is.na(dat)) > 0.5)]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

删除缺失超过 x% 的列/行的相关文章

ggplot2：如何标记事件发生的日期

我想从第二个情节中获取第一个情节的信息第二张图表示事件发生的天数它看起来更宽因为它没有图例但它是相同的时间尺度我选择在第一个图中手动分配颜色 I would like to overlay the second plot dots
将不均匀的层次列表转换为数据框

我认为还没有有人问过这个问题但是有没有一种方法可以将具有多个级别和不均匀结构的列表的信息组合成长格式的数据帧具体来说 library XML library plyr xml inning lt http gd2 mlb com c
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
以编程方式将字符串宽度值插入到 sprintf() 中

我正在尝试以编程方式将字符串宽度值插入到sprintf 格式期望的结果是 sprintf 20s hello 1 hello 但我想插入20在同一通话中即时进行因此它可以是任何号码我努力了 sprintf ds 20 hello 1
条件字体颜色 R Markdown

我无法找到一种方法来根据变量的值 gt 0 0 或 r setup include FALSE x lt 4 This is an R Markdown document r if x gt 0 textcolor red Markdown
任意列中包含字符串的子集行

我有一个如下所示的数据集 Col1 Col2 Col3 abckel NA 7 jdmelw njabc NA 8 jdken jdne 如何对数据集进行子集化使其仅保留包含字符串 abc 的行最终预期输出 Col1 Col2 Col3
如何将plot中的单变量列表图表转换为ggplot2格式？

我正在搜索但仍然找不到一个非常简单的问题的答案我们如何使用 R 中的 ggplot2 生成一个变量的简单线图我正在分析时间序列数据并且想要对图表进行更复杂的操作我认为如果我使用 ggplot2 代替会更好plot It works
在 Shiny 中的用户会话之间共享反应数据集

我有一个相当大的反应数据集该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的数据更新频繁需要不断重新加载诚然重新加载可以增量完成并附加到 R 中的现有对象但事实并非如此然而目前尽管会话中的数据相同但此操作是针对
调用 tidyselect-using 函数时指定点参数，无需指定前面的参数

这是我在包中使用的函数的简化版本论证和tidyselect选择变量 this toy function just selects the variables foo lt function dat mtcars expr lt rlang
显示特定颜色

我正在研究颜色分类我正在用特定颜色初始化一个矩阵以便可以获得红色蓝色或绿色的 16x16 矩阵代码如下 library rgl color1 lt function n lt 3 m lt 16 a lt list numeric
如何减少 geom_text 重叠

我的数据集包含超过 500 个对各个运动员在不同地点进行的比赛活动的观察结果并在足球比赛期间进行记录下面是我的数据集的示例其中每个符号都指一个匹配活动例如 KE踢有效在 1 分钟时记录Defense Example data df
将逗号类分配给数据框中的多个列

我有一个data frame有几个数字列我要就像分配逗号类一样这是需要的因为我有一个中央数据框我使用 Openxlsx 包过滤并保存到 Excel 并且需要comma类以便数据在excel中显示为逗号格式这是数据框 set
在 R 中绘制逻辑回归的两条曲线

我正在 R glm 中运行逻辑回归然后我设法绘制结果我的代码如下 temperature glm glm Response Temperature data mydata family binomial plot mydata Temp
dplyr 将字符串拆分为逗号分隔的列表

我正在尝试使用 dplyr 将字符串拆分为逗号分隔的字符串但运气不佳 dat lt data frame key 1 4 labels c a ab abc b 我试图将标签列设置为 c a a b a b c b 我已经尝试了以下所有变
r - 选择每组最后出现的 n 次

情况我有一个数据框df df lt structure list person structure c 1L 1L 1L 1L 2L 2L 2L 3L 3L Label c pA pB pC class factor date struc
以给定的纵横比保存绘图

我正在使用非常棒的库 ggplot2 我想出了如何使用设置绘图的纵横比coord fixed 现在我想将绘图保存为具有指定宽度例如 10 厘米的 PDF 并计算所需的高度我不知道如何实现这一目标这可能吗您可以使用网格函数来计算
为什么 statsmodels 和 R 的逻辑回归结果不同？

我正在尝试比较 python 的 statsmodels 和 R 中的逻辑回归实现 Python版本 import statsmodels api as sm import pandas as pd import pylab as pl i
dplyr / left_join 中的嵌套管链

在尝试获取分组滞后变量的过程中仅使用这是不可能的 lag 建议的解决方案是将数据拉出滞后不同的行然后重新加入它我更喜欢在不创建中间对象的情况下执行此操作并且希望在链中间执行此操作然而它似乎没有像我预期的那样工作问题似乎是使用
如何生成向量的所有组合[重复]

这个问题在这里已经有答案了假设我有 3 个绿球 2 个橙球和 8 个黄球我想订购它们鉴于所有相同颜色的球都是相同的如何生成所有可能的序列在 R 中使用gregmisc 我可以 balls lt c orange orange g
如何调整ggplot直方图的时间刻度轴

我正在使用一个数据框其中一列包含POSIXct日期时间值我正在尝试使用绘制这些时间戳的直方图ggplot2但我有两个问题我不知道如何设置 binwidthgeom histogram 我想将每个垃圾箱设置为一天或一周我尝试提供 di

随机推荐

如何在Opencv中访问单通道IplImage的元素

我怎样才能访问Elements of an IplImage 单通道和 IPL DEPTH 8U 深度我想更改图像特定 x y 位置的像素值 opencv提供CV IMAGE ELEM方法来访问IplImage的元素它是一个宏 defi
DialogFragment 不关闭

我已经四处寻找解决方案但似乎这不是一个常见问题我希望在我的应用程序连接到服务器时有一个不确定的对话框微调器然后清除该对话框并在请求完成时显示不同的对话框我正在使用Fragment兼容包问题是在显示第二个对话框之前没有删除微调器这
C# RSA 加密 -> PHP RSA 解密

我正在尝试在 C 中使用 RSA 加密 AES 密钥和 IV 并使用 phpseclib 使用 PHP 解密它们我花了大约 4 个小时尝试解决这个问题但总是收到第 2495 行解密错误 PKCS 似乎有问题临时私钥
Hibernate 映射包

我正在使用 Hibernate 注释在我的所有模型类中我都这样注释 Entity Table public class SomeModelClass 我的 hibernate cfg xml 是
SQL CLR 拆分 UDF 中的标识列

如何使用标准 SQL CLR Split UDF 返回标识列例如下面的代码将返回一个表其中字符串值按分隔符分隔我还需要以某种方式返回标识列
禁用传单绘制“删除”按钮

如何禁用删除删除按钮传单抽奖编辑工具栏编辑按钮应保持启用状态关于章节中的文档禁用工具栏项您可以执行以下操作 map addControl new L Control Draw edit featureGroup drawnItems
HTML5 将画布保存为 PNG

我按照这个示例将画布保存到 PNG 文件 http greenethumb com article 1429 user friend image saving from the canvas 我的问题下载的文件已损坏当我在记事本中打开它
为什么调试器不会将 win32 计时器回调中引发的未处理异常视为未处理异常？

我一直在追踪工作中一个非常阴险的错误似乎导致我一直在追踪的非常奇怪的行为的事件似乎是在处理计时器回调时引发的异常我的任何代码都没有处理该异常因此我希望调试器能够收到未处理异常的通知并通过一个令人讨厌的弹出窗口提醒我不相反第一次
有没有办法访问向量中的索引

我需要访问向量内的索引单个值我认为它会类似于 v1 lt c a b c d e v1 3 h 但这似乎根本不起作用其他人知道该怎么做吗编辑好吧回答你的一些问题这是我想要实现的总体目标的大图 MyDataR1 lt scan
多线程签名生成C#

我正在使用符合 PKCS11 标准的加密设备来保护我的私钥加密设备每秒能够生成 500 个 RSA 2048 位签名我用 C NET 编写了一个与 PKCS11Interop Wrapper 交互的应用程序这是我的代码 region
Pythonic / Panda 方式创建 Groupby 函数

我对编程相当陌生正在寻找一种更Pythonic 的方法来实现一些代码这是虚拟数据 df pd DataFrame Category np random choice Group A Group B 10000 Sub Category
MSBuild 条件执行？

我正在使用 E g
如何在 Swift 中使带有循环的函数异步？

我正在为图书馆创建一个应用程序我正在尝试获取用户从 Firebase 签出的所有书籍但我尝试使该函数与 DispatchGroup 异步似乎不起作用我怀疑这是因为函数内部发现了 for in 循环 func fetchHistory
CSS固定标题[关闭]

Closed 这个问题是无法重现或由拼写错误引起目前不接受答案我正在尝试将标题固定在顶部我看过其他帖子并确信我做得正确这是标题的 CSS header width 100 position fixed top 0px 由于某种原因
验证字符串仅包含 Ruby 中允许的字符

如何测试 Ruby 字符串是否仅包含特定字符集例如如果我允许的字符集是 AGHTM 加数字0 9 字符串 MT3G22AH is valid 字符串 TAR34 is invalid 因为R 一个非常惯用的非正则表达式解决方案是使用字符
Cocoapods：未找到库

我正在尝试运行 Cocoapods 项目并收到以下错误我尝试过了pod deintegrate进而pod install但它仍然存在我也尝试删除pod debug xcconfig文件来自Project gt Info gt Confi
Spring 数据出现 ne04j 错误...检索路径时出错

我将 spring 数据与 neo4j 一起使用 I used Query注解将查询放置在存储库中查询如下 Query value START me node 0 friend node 1 MATCH p shortestPath me
空手道 + 黄瓜报告缺少所调用场景响应的文档字符串

Cucumber 报告缺少来自调用场景的响应的文档字符串在给定的场景中我使用 Call 调用多个场景它的打印有时会随机响应所调用的场景有时则不会这阻碍了我们在测试报告中可视化API之间的数据流尽管空手道日志有来自该调用场景的响应
避免文本区域行/列错误？

我正在使用几页验证工具我遇到的一个问题是他们告诉我 textarea 必须有 rows 和 cols 属性如果我在 CSS 中设置它或使用 display none 并使用它来保存原始文本数据我可以做一些跳过的事情吗每次我使用它时似
删除缺失超过 x% 的列/行

我想删除所有超过 50 的列或行NAs 在数据框中这是我的解决方案 delete columns with more than 50 missings miss lt c for i in 1 ncol data if length wh

删除缺失超过 x% 的列/行

删除缺失超过 x% 的列/行 的相关文章

随机推荐

热门标签

删除缺失超过 x% 的列/行的相关文章