如何在不删除 R 中存在 NA 的行的情况下执行聚类

2023-11-22

我有一个数据，其元素中包含一些 NA 值。我想做的是执行聚类而不删除行NA 存在的地方。

我明白那个gower距离测量单位daisy允许这种情况。但为什么我下面的代码不起作用？我欢迎“雏菊”以外的其他选择。

# plot heat map with dendogram together.

library("gplots")
library("cluster")


# Arbitrarily assigning NA to some elements
mtcars[2,2] <- "NA"
mtcars[6,7]  <- "NA"

 mydata <- mtcars

hclustfunc <- function(x) hclust(x, method="complete")

# Initially I wanted to use this but it didn't take NA
#distfunc <- function(x) dist(x,method="euclidean")

# Try using daisy GOWER function 
# which suppose to work with NA value
distfunc <- function(x) daisy(x,metric="gower")

d <- distfunc(mydata)
fit <- hclustfunc(d)

# Perform clustering heatmap
heatmap.2(as.matrix(mydata),dendrogram="row",trace="none", margin=c(8,9), hclust=hclustfunc,distfun=distfunc);

我收到的错误消息是这样的：

    Error in which(is.na) : argument to 'which' is not logical
Calls: distfunc.g -> daisy
In addition: Warning messages:
1: In data.matrix(x) : NAs introduced by coercion
2: In data.matrix(x) : NAs introduced by coercion
3: In daisy(x, metric = "gower") :
  binary variable(s) 8, 9 treated as interval scaled
Execution halted

最终，我想使用 NA 允许的数据执行层次聚类。

Update

转换为as.numeric使用上面的示例。但是为什么从文本文件读取时这段代码失败了？

library("gplots")
library("cluster")

# This time read from file
mtcars <- read.table("http://dpaste.com/1496666/plain/",na.strings="NA",sep="\t")

# Following suggestion convert to numeric
mydata <- apply( mtcars, 2, as.numeric )

hclustfunc <- function(x) hclust(x, method="complete")
#distfunc <- function(x) dist(x,method="euclidean")
# Try using daisy GOWER function 
distfunc <- function(x) daisy(x,metric="gower")

d <- distfunc(mydata)
fit <- hclustfunc(d)

heatmap.2(as.matrix(mydata),dendrogram="row",trace="none", margin=c(8,9), hclust=hclustfunc,distfun=distfunc);

我得到的错误是这样的：

  Warning messages:
1: In min(x) : no non-missing arguments to min; returning Inf
2: In max(x) : no non-missing arguments to max; returning -Inf
3: In min(x) : no non-missing arguments to min; returning Inf
4: In max(x) : no non-missing arguments to max; returning -Inf
Error in hclust(x, method = "complete") : 
  NA/NaN/Inf in foreign function call (arg 11)
Calls: hclustfunc -> hclust
Execution halted

～

该错误是由于数据中存在非数字变量（编码为字符串的数字）造成的。您可以将它们转换为数字：

mydata <- apply( mtcars, 2, as.numeric )
d <- distfunc(mydata)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

clusteranalysis

Bioconductor

如何在不删除 R 中存在 NA 的行的情况下执行聚类的相关文章

R 中带有文件名的 For 循环

我有一个文件列表例如 nE pT sbj01 e2 2 csv nE pT sbj02 e2 2 csv nE pT sbj04 e2 2 csv nE pT sbj05 e2 2 csv nE pT sbj09 e2 2 csv nE
par(mfrow=c(1,2)) 不显示并排密度图[重复]

这个问题在这里已经有答案了 par mfrow c 1 2 plot 1 12 log y plot 1 2 xaxs i 然而当我尝试做并排密度图时图会单独输出 load the stud recs dataset library U
将循环转换为并行计算的函数

我正在使用 R 编程语言我遇到这个问题我试图找出两个 shapefile 之间的成对交集即第一个 shapefile 中的每个多边形与第二个 shapefile 中的所有多边形相交的百分比我想我找到了解决这个问题的基本方法 Load
基于另一个数据集获取数据集的子集

假设我有一个数据集即 dat1 ID block plot SPID TotHeight 1 1 1 4 44 5 2 1 1 4 51 3 1 1 4 28 7 4 1 1 4 24 5 5 1 1 4 27 3 6 1 1 4 20
将年月格式转换为 POSIXct [重复]

这个问题在这里已经有答案了我有一些年月形式的数据我想将其格式化以用于绘图ggplot date lt c 2016 03 2016 04 2016 05 2016 06 2016 07 2016 08 2016 09 2016 10 2
理解高斯混合模型的概念

我试图通过阅读在线资源来理解 GMM 我已经使用 K 均值实现了聚类并且正在了解 GMM 与 K 均值的比较以下是我的理解如有错误请指出 GMM 类似于 KNN 在这两种情况下都实现了聚类但在 GMM 中每个簇都有自己独立的均值和
LDA with topicmodels，如何查看不同文档属于哪些主题？

我正在使用 topicmodels 包中的 LDA 我已经在大约 30 000 个文档上运行它获取了 30 个主题并获得了主题的前 10 个单词它们看起来非常好但我想看看哪些文档属于哪个主题的概率最高我该怎么做 myCorpus
kableExtra 中的 row_spec() 函数不会在 html 输出中创建水平线

我想在 kableextra 表中的某一行下方添加一条水平线 row spec 函数的参数 hline after 应该在行下方添加水平线 row spec 文档 https www rdocumentation org packages
使用 broom 和 tidyverse 总结 r 平方游戏

我发布了一个问题here https stackoverflow com questions 48627287 getting adjusted r squared value for each line in a geom smooth
删除ggplot2中的负图区域[重复]

这个问题在这里已经有答案了如何删除 ggplot2 中 x 轴和 y 轴下方的绘图区域请参见下面的示例我尝试了几个主题元素 panel border panel margin plot margin 但没有任何运气 p lt ggpl
如何用外部图像填充地图边界？

我正在创建一张带有州边界的巴西地图这可以直接使用ggplot2 and geom sf 然而这一次我不想用数据填充每个状态的颜色而是想用外部图像 png 填充每个状态的边界类似于this https online olivet e
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
多功能测试仪替代 system.time

我已经看到我认为是这样使用了类似于 system time 的函数它可以同时评估多个函数的时间并输出一个输出我不记得它是什么并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应有人知道我正在谈论的功能的名称位置吗你想要
将绘图调用拆分为多个块

我正在编写一个图的解释其中我基本上将在第一个块中创建图然后描述该输出并在第二个块中添加一个轴然而似乎每个块都会强制一个新的绘图环境因此当我们尝试使用以下命令运行块时会出现错误axis独自的观察 output html docu
twitterR 和 ROAuth R 软件包安装

我在安装 CRAN 上的 twitteR 和 RAOuth 软件包时遇到一些问题我尝试了几种不同的方法在 Windows 下使用源代码在 Ubuntu 下使用 RStudio 我尝试了以下命令 sudo apt get install
以引用透明的方式从函数的省略号参数中提取符号

事情又发生了我正要按下发布答案按钮的问题被删除了我正在寻找一种方法来从函数的省略号参数中提取绑定到符号的对象的值以及符号也就是说我试图以引用透明的方式从省略号中提取符号我尝试过使用替代品和lazy dots 但没有成功 funct
使用 R 选择第一个非 NA 值

df lt data frame ID c 1 1 1 2 3 3 3 test c NA 5 5 6 4 NA 7 3 NA 10 9 我想创建一个名为 value 的变量它是每个单独 ID 测试的第一个非 NA 值对于只有NA的个体
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use

随机推荐

处理作曲家废弃包的最佳实践是什么？

当我运行作曲家更新时我偶尔会收到软件包已被放弃的消息我应该使用不同的软件包例如Package webflo drupal core require dev is abandoned you should avoid using it
上传文件在更新面板中不起作用

我不想刷新或回发我的页面所以我尝试在 updatepanel 中上传文件但单击上传按钮时验证检查显示没有文件我的html代码是
C++14 变量模板：它们的用途是什么？有使用示例吗？

C 14 将允许创建模板化变量通常的例子是变量 pi 可以读取它来获取各种类型的数学常数的值 3 表示int 最接近的值可能是float etc 除此之外我们只需将变量包装在模板化结构或类中即可获得此功能这如何与类型转换混合我看到
如何从 woocommerce 获取商品的库存数量？

我在正确显示库存数量时遇到了一些问题这是循环 span class price PREIS span class amount span span
如何追踪内存峰值？（这是带有 p 的峰值，而不是带有 l 的峰值。）

我有一个信息亭应用程序它本质上显示了一堆幻灯片其中包含各种信息我最初是在一年前开始编写这个代码的当时我刚开始从事 Objective C 和 iOS 开发我发现我的代码风格现在比以前干净多了而且我的经验也丰富了所以我决定从头开
Angular2 传递函数作为组件输入不起作用

我有一个以函数作为输入的组件我已经从父级传递了这个函数尽管调用了该函数但该函数无法访问声明该函数的实例的依赖项这是组件 Component selector custom element template val export cl
WCF ChannelFactory 与生成代理

只是想知道当您可以使用 ChannelFactory 调用时在什么情况下您更愿意从 WCF 服务生成代理这样你就不必生成代理并担心服务器更新时重新生成代理了 Thanks 创建 WCF 客户端有 3 种基本方法让 Visual Stu
限制ManyToManyField的最大选择

我试图限制模型记录在 ManyToManyField 中可以拥有的最大选择数量在此示例中有一个可以与区域相关的博客站点在此示例中我想将博客站点限制为只能有 3 个区域这似乎是以前被问过回答过的问题但经过几个小时的探索后我还没
Helm 图表之间的依赖关系是否应该反映微服务之间的依赖关系？

给定以下服务方案及其依赖项我想设计一组 Helm 图表 API Gateway calls Service A and Service C Service A calls Service B Service B calls Databas
ASP.NET Identity 2.0：如何重新哈希密码

我正在 ASP NET 5 0 Web 应用程序中将用户从旧用户存储迁移到 ASP NET Identity 2 0 我有一种验证旧哈希值的方法但我想在登录时将它们升级到 ASP NET Identity 2 0 哈希值我创建了一个自定
使用 MemoryStream 写入 XML

我注意到有两种不同的方法将数据写入 XML 文件为简洁起见省略了错误处理第一种方法是构建 XML 文档然后将 XML 保存到文件中 using XmlWriter writer XmlWriter Create fileName w
如何在makefile配方中设置环境变量？

这是一个简化的 Makefile all for i 0 i lt 5 i do var var i echo var done echo var 我认为 var 的值是 0 1 2 3 4 但输出是 0 0 1 0 1 2 0 1 2 3
如何实现CoreData记录的重新排序？

我在 iPhone 应用程序中使用 CoreData 但 CoreData 不提供允许您对记录重新排序的自动方法我想过使用另一列来存储订单信息但是使用连续数字作为排序索引有问题如果我正在处理大量数据重新排序记录可能涉及更新排序信息上
Play 框架如何运作？

我喜欢玩与其他企业 Java 框架相比它对于开发人员来说使用起来非常简单但是它是如何做到的呢是什么让像 Java 这样的编译语言能够实现编辑刷新循环是什么让 Play 按其工作方式工作 Play 使用 Eclipse 编译器在
在 PL/SQL 中打印记录字段

如何在 PL SQL 中打印记录变量的所有字段记录变量有很多字段那么有没有比打印每个字段更好的方法呢也尝试过动态sql但没有帮助基于 Ollies 使用 dbms output 构建但用于动态遍历光标设置用于测试 create
ASP.NET MVC 3 - 在 jquery 对话框中编辑动态添加到模型集合的项目

我是 MVC 新手所以我不确定这里最好的方法是什么我有一个视图模型其中包含几个像这样的集合 public class MainViewModel public List
iPhone Web 应用程序可以使用相机吗？

我有一个网络应用程序我想拍照然后将它们上传到服务器这可以通过网络应用程序完成吗编辑现在可以了请参阅下面的答案不可以 webapp 无法访问内部设备尝试使用 PhoneGap 来缩小您的应用程序和内部设备之间的差距但这将编译一
通过列表和数组中的索引获取结构体项目

当我使用数组时structs 例如 System Drawing Point 我可以通过索引获取项目并更改它例如此代码工作正常 Point points new Point new Point 0 0 new Point 1 1 new
寻找曲线上的最佳权衡点

假设我有一些数据我想为其拟合参数化模型我的目标是找到该模型参数的最佳值我正在使用AIC BIC MDL奖励低误差模型的标准类型但也会惩罚高复杂性的模型可以说我们正在为这些数据寻找最简单但最令人信服的解释 a la奥卡姆剃刀根据
如何在不删除 R 中存在 NA 的行的情况下执行聚类

我有一个数据其元素中包含一些 NA 值我想做的是执行聚类而不删除行NA 存在的地方我明白那个gower距离测量单位daisy允许这种情况但为什么我下面的代码不起作用我欢迎雏菊以外的其他选择 plot heat map with

如何在不删除 R 中存在 NA 的行的情况下执行聚类

如何在不删除 R 中存在 NA 的行的情况下执行聚类 的相关文章

随机推荐

热门标签

如何在不删除 R 中存在 NA 的行的情况下执行聚类的相关文章