在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException

2024-04-30

我正在学习 Mahout 并阅读“Mahout in Action”。

当我尝试运行第 7 章 Simple KMeans Clustering.java 中的示例代码时，弹出了一个异常：

线程“main”中的异常 java.io.IOException：错误的值类：0.0：null 不是类 org.apache.mahout.clustering.WeightedPropertyVectorWritable at org.apache.hadoop.io.SequenceFile$Reader.next(SequenceFile.java:第 1874 章

我在 mahout-0.5 上成功执行了这段代码，但在 mahout-0.6 上我看到了这个异常。即使我将目录名称从 cluster-0 更改为 cluster-0-final，我仍然面临这个异常。

    KMeansDriver.run(conf, vectors, new Path(canopyCentroids, "clusters-0-final"), clusterOutput, new TanimotoDistanceMeasure(), 0.01, 20, true, false);//First, I changed this path.

    SequenceFile.Reader reader = new SequenceFile.Reader(fs,  new Path("output/clusters/clusteredPoints/part-m-00000"), conf);//I double checked this folder and filename.

    IntWritable key = new IntWritable();
    WeightedVectorWritable value = new WeightedVectorWritable();
    int i=0;
    while(reader.next(key, value)) {
        System.out.println(value.toString() + " belongs to cluster " + key.toString());
        i++;
    }
    System.out.println(i);
    reader.close();

有人对这个例外有任何想法吗？我已经尝试解决这个问题很长时间了，但没有任何想法。而且互联网上的来源很少。

提前致谢

为了使这个例子在 Mahout 0.6 中工作，添加

import org.apache.mahout.clustering.WeightedPropertyVectorWritable;

到进口并替换行：

 WeightedVectorWritable value = new WeightedVectorWritable();

WeightedPropertyVectorWritable value = new WeightedPropertyVectorWritable();

发生这种情况是因为 Mahout 0.6 代码将聚类输出值写入新类型 WeightedPropertyVectorWritable 中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mahout

kmeans

在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException 的相关文章

使用 clusplot 绘制以 0 为中心坐标的聚类

我正在尝试绘制 GIS 坐标特别是东向和北向相似的英国国家网格坐标 194630000 562220000 我可以使用 Cluster 库中的 clusplot 绘制这些图 clusplot df2 k means fit cluster
具有相同簇大小的 K 均值算法变体

我正在寻找最快的算法用于按距离将地图上的点分组为大小相等的组这k 均值聚类算法看起来简单且有前途但不能产生同等规模的群体该算法是否有一种变体或者是否有一种不同的算法可以允许所有集群的成员数量相等也可以看看将 n 个点分组到 k
Mahout row相似度

我正在尝试计算维基百科文档之间的行相似度我有 tf idf 向量的格式Key class class org apache hadoop io Text Value Class class org apache mahout math V
我自己的 R 中的 K 均值算法

我是 R 编程的初学者我正在 R 中进行此练习作为编程入门我已经在 R 中实现了自己的 K 均值实现但在某一点上卡住了一段时间我需要达成共识算法迭代直到找到每个簇的最佳中心这是没有迭代的原始算法它只是从整个数据中随机选取一个数
如何为 hadoop 2.0 编译/使用 mahout？

最新版本的 Mahout 0 9 仅基于 hadoop 1 x 构建 mvn 干净安装如何为 hadoop 2 0 x 编译 mahout 因为当我运行命令时 hadoop jar mahout examples 0 9 SNAPSHOT
在 Mahout 0.8 中运行 cvb

当前的 Mahout 0 8 SNAPSHOT 包括用于主题建模的折叠变分贝叶斯 cvb 版本并删除了潜在狄利克雷分析 lda 方法因为 cvb 可以更好地并行化不幸的是只有文档lda https cwiki apache org
K-Medoids 真的比 K-Means 更擅长处理异常值吗？（举例说明相反）

K 中心点 and K Means是两种流行的分区聚类方法我的研究表明当存在异常值时 K Medoids 更擅长对数据进行聚类 source https stackoverflow com questions 21619794 what
如何在R编程中显示同一坐标中的总数

更新2017年9月11日问题这是我在 R 中集群 kmode 的代码 library klaR setwd D kmodes data to cluster lt read csv kmodes csv header TRUE sep c
在 K 均值算法 (MATLAB) 中使用绝对皮尔逊相关性作为距离

我需要使用相关距离进行一些聚类但我需要绝对皮尔逊距离而不是使用定义为 d 1 r 的内置距离相关在我的应用程序中反相关数据应该获得相同的集群 ID 现在当使用 kmeans 函数时我得到的质心高度反相关我希望通过组合它们来
AttributeError：“KMeans”对象没有属性“inertia_”

from sklearn cluster import KMeans import numpy import pandas as pd from pandas import read csv boston read csv desktop
考虑中心的顺序，重新标记 kmean 结果中的样本

我正在使用 kmeans 来聚类我的数据对于生成的结果我有一个计划我想根据订购的中心重新标记样本考虑以下示例 a c a b c d e F i j k l m n b c 1 2 3 20 21 21 40 41 42 4 23 5
ruby on Rails 的 Mahout 插件

我想在 Ruby on Rails 项目中使用 Apache Mahout 来实现推荐和协作过滤特别是我的要求是建议相关标签推荐相关文章根据用户的喜好提示他评论文章根据用户的地理位置和其他元信息向他推荐类似的用户如果任何其他解
SOM（自组织映射）和 K 均值有什么区别？

stackoverflow中只有一个与此相关的问题更多的是关于哪个更好我只是不太明白其中的区别我的意思是它们都使用向量这些向量被随机分配给集群它们都使用不同集群的质心来确定获胜的输出节点我的意思是差异到底在哪里在 K 均值中
SKLearn KMeans 收敛警告[重复]

这个问题在这里已经有答案了我在一维数据集上使用 SKLearn 的 KMeans 聚类我遇到的错误是当我运行代码时我得到一个ConvergenceWarning ConvergenceWarning Number of distin
使用谱聚类对看不见的点进行聚类

我在用谱聚类 http papers nips cc paper 2092 on spectral clustering analysis and an algorithm方法对我的数据进行聚类实施似乎工作正常但是我有一个问题我有一
Python scikit-learn KMeans 在计算轮廓分数时被杀死 (9)

我目前正在研究一个图像数据集 250 000 张图像因此与特征向量一样多每个图像都由 132 个特征组成并尝试使用 sklearn 提供的 KMeans 函数我在 Mac OS X 10 10 Python 2 7 和 sklear
使轮廓图对于 k 均值清晰易读

我正在尝试为 k 均值聚类制作轮廓图但条形几乎看不见我怎样才能使这个图表清晰易读示例代码 require cluster X lt EuStockMarkets kmm lt kmeans X 8 D lt daisy X plot
使用杰卡德距离矩阵进行 Kmeans 聚类

我正在尝试创建 Jaccard 距离矩阵并对其执行 K 均值以给出簇 id 和簇中元素的 id 它的输入是 Twitter 推文以下是代码我无法理解如何使用 kmeans 文件中的初始种子 install packages rjson
从彩色背景中提取黑色对象

人眼很容易辨别black来自其他颜色但是计算机呢我在普通的A4纸上打印了一些色块由于组成彩色图像有青色品红色和黄色三种墨水所以我设置每个块的颜色C 20 C 30 C 40 C 50 以及其余两种颜色是 0 这是我的源图像的第一列
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h

随机推荐

Direct2D：将 ID2D1Image 转换为 ID2D1Bitmap

我正在开发一个需要修改屏幕上已有内容的程序所以我只有一个ID2D1Bitmap我使用创建的pRenderTarget gt CopyFromRenderTarget 我想做的是将效果应用于该位图效果仅返回ID2D1Image 但我需要有
三星手机中无法启用闪光灯

我试图在三星手机中启用闪光灯但它没有打开这是我的代码 Camera mycam Camera open Parameters p mycam getParameters p setFlashMode Parameters FLASH M
如何从 Databricks Notebook 中调用 Cluster API 并启动集群？

目前我们正在使用一堆笔记本来处理 azure databricks 中的数据主要使用 python pyspark 我们想要实现的是确保我们的集群在开始数据处理之前启动预热因此我们正在探索从 databricks 笔记本内访问 C
有没有办法在 ggplot 中绘制 pandas 系列？

我正在尝试 pandas 和非 matplotlib 绘图好的建议是here http pandas pydata org pandas docs stable ecosystem html 这个问题涉及到yhat 的 ggplot ht
javax.validator 与 spring 组件

我将 javax validation 与 Spring 一起使用在我的测试常规中我明确创建了验证器 import javax validation Validation import javax validation Valida
Python sqlalchemy 尝试使用 .to_sql 将 pandas 数据帧写入 SQL Server

我有一个Python代码通过它我得到了一个pandas数据框 df 我正在尝试将此数据框写入 Microsoft SQL 服务器我尝试通过以下代码进行连接但出现错误 import pyodbc from sqlalchemy impo
TcpClient 与服务器通信以在 C# 中保持活动连接？

我有这个 TcpClient 代码工作正常它连接到 Linux 系统上的 perl 服务器并接收服务器发送给它的任何内容效果很好 public static void Main foreach ProtocolConnection t
如何使用 JRuby 创建 Java 小程序？

我想使用 JRuby 创建一个 Java 小程序也就是说我想创建一个 Java 小程序其中包含由 JRuby 运行的 Ruby 代码来完成所有 GUI 操作我正在寻找一个简单的示例来说明如何开始查看这些链接来自我们代码库的 JR
使用 ddply 排除某些列中的重复值

我有一个具有以下结构的数据框 gt dftest element seqnames start end width strand tx id tx name 1 1 chr19 58858172 58864865 6694 36769 NM
Spring Reactive Webclient 的请求级背压？

这类似于akka http请求级反压怎么做 https stackoverflow com questions 46738696 how to do akka http request level backpressure但对于 Sprin
如果字段重复则删除行

如果第一个字段重复则寻找 awk 或 sed 单行代码以从输出中删除行我见过的删除重复行的示例是 awk a 0 a 0 尝试使用它作为基础但没有运气我认为将 0 更改为 1 可以解决问题但似乎不起作用 awk if a 1 0
Kubernetes 中的暂停镜像有什么用？

看来在 Windows 上 Kubernetes 启动了一个pause创建的每个 Pod 的图像这个暂停图像的目的是什么我在哪里可以找到更多有关它的文档 The pause容器是保存 Pod 网络命名空间的容器 Kubernetes 创
数据点序列化

我怎样才能只序列化数据点我想将数据点保存到文件中 Serializable class CIE public List
git 无法检测重命名

一个分支 refactoringBranch 进行了完整的目录重组文件被混乱地移动但内容被保留我尝试合并 git merge no ff Xrename threshold 15 Xpatience Xignore space cha
一个持久卷是否可以被多个持久卷声明消耗？

假设一个 PV 可以被多个 PVC 消耗并且每个 pod 实例需要一个 PVC 绑定这样的假设是否正确我这么问是因为我创建了一个 PV 然后创建了一个具有不同尺寸要求的 PVC 例如 kind PersistentVolume apiV
在 PHP 中复制 Excel 循环引用公式

我正在尝试在 PHP 中复制 Excel 循环引用公式在 Excel 中我有 A19 A25 A22 result 8771 65 A22 A19 14 1 result 1236 80 A25 10000 但是当我尝试用 PHP 计算
如何从 NSDate 获取月份和年份？

有什么方法方法可以将月份和年份与 NSDate 分开吗我只需要显示当前月份和年份有例子吗 NSDate date NSDate date NSDateComponents dateComponents calendar compone
使用 PropertiesLauncher 启动的 Spring-boot（特定于配置文件）应用程序中出现覆盖应用程序属性的问题

我在尝试使用文件系统上的覆盖文件中声明的另一个值来覆盖类路径上特定于配置文件的应用程序属性文件中声明的属性时遇到困难我有一个自动配置的 Spring boot 应用程序即使用 EnableAutoconfiguration 有多个配置
如何在 Android 中像 Google 地图一样获得持续的位置更新？

我正在构建一个朋友跟踪 Android 应用程序当我的朋友激活应用程序并带着他的 GPS 和蜂窝数据离开时我需要在我的设备上跟踪他这就是这个概念我已经实现了 LocationListener 类现在我可以从 Gps 或网络获取最后
在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException

我正在学习 Mahout 并阅读 Mahout in Action 当我尝试运行第 7 章 Simple KMeans Clustering java 中的示例代码时弹出了一个异常线程 main 中的异常 java io IOExcep

在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException

在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException 的相关文章

随机推荐

热门标签