在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

2024-05-16

我们一直在使用 Kmeans 来对日志进行聚类。典型的数据集有 10 mill。具有 100k+ 特征的样本。

为了找到最佳 k - 我们并行运行多个 Kmeans，并选择轮廓得分最佳的一个。在 90% 的情况下，我们最终得到的 k 介于 2 到 100 之间。目前，我们正在使用 scikit-learn Kmeans。对于这样的数据集，在具有 32 个内核和 244 RAM 的 ec2 实例上进行集群大约需要 24 小时。

我目前一直在研究更快的解决方案。

我已经测试过的：

Kmeans + 均值平移组合 https://jamesxli.blogspot.com/2012/03/on-mean-shift-and-k-means-clustering.html- 好一点（对于 k=1024 --> ~13h），但仍然很慢。
Kmcuda https://github.com/src-d/kmcuda库 - 不支持稀疏矩阵表示。需要约 3TB RAM 才能将该数据集表示为内存中的密集矩阵。
张量流（tf.contrib.factorization.python.ops.KmeansClustering()） - 今天才开始调查，但要么我做错了什么，要么我不知道怎么煮。在我使用 20k 样本和 500 个特征进行的第一次测试中，单个 GPU 上的集群比单线程 CPU 上的集群慢。
FacebookFAISS https://github.com/facebookresearch/faiss- 不支持稀疏表示。

我的列表中的下一个是 PySpark MlLib Kmeans。但它在 1 个节点上有意义吗？

在多个 GPU 上更快地训练我的用例吗？例如，带有 8 个 Tesla V-100 的 TensorFlow？

还有什么我没听说过的神奇图书馆吗？

或者只是简单地垂直缩放？

明智地选择算法。 kmeans 有聪明的算法，也有愚蠢的算法。劳合社（Lloyd's）很愚蠢，但却是迄今为止您在 GPU 中能找到的唯一一个。它通过不必要的计算浪费了大量资源。因为GPU和“大数据”人们并不关心资源效率...... 好的算法包括 Elkan's、Hamerly's、Ying-Yang、Exponion、Annulus 等 - 这些是much比劳合社更快。

Sklearn 是这里更好的工具之一，因为它至少包含 Elkan 的算法。但如果我没记错的话，它可能会重复地复制你的数据。也许是成块的，所以你不会注意到它。当我将 sklearn 中的 k 均值与我自己在 Python 中的球形 k 均值进行比较时，我的实现速度快了许多倍。我只能使用稀疏优化来解释这一点，而 sklearn 版本则执行密集操作。但也许从那以后这已经得到了改善。
实施质量很重要。有一篇关于 k 均值基准测试的有趣论文。让我谷歌一下：

Kriegel, H. P.、Schubert, E. 和 Zimek, A. (2017)。运行时评估的（黑色）艺术：我们是在比较算法还是实现？知识和信息系统，52(2), 341-378。

他们展示了相同的算法如何根据实现的差异而具有 f 数量级的运行时间差异。 Spark 在那里表现得不太好......它的开销太高，算法太慢。
您不需要所有数据。

K 均值适用于平均值。当您添加更多数据时，平均值的质量会非常缓慢地提高。因此，使用您拥有的所有数据几乎没有什么用处。只要使用足够大的样本，结果就应该具有几乎相同的质量。您也可以利用它进行播种。首先在较小的集合上运行，然后添加更多数据进行细化。
由于您的数据稀疏，因此 k 均值很可能不是正确的工具。您测试过结果的质量吗？如何确保属性得到适当缩放？结果有多少是简单地由向量为 0 的位置决定的，而不是由实际的非零值决定的？如此频繁地重新运行 k 均值，结果真的会有所改善吗？如果您不再重新运行 k 均值怎么办？如果您只是在 3) 中讨论的示例上运行它会怎么样？如果您只选择 k 个随机中心并进行 0 次 k 均值迭代会怎样？你最好的剪影是什么？您很可能无法衡量差异，只是白白浪费时间和资源！那么，您如何确保结果的可靠性呢？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

machinelearning

PySpark

clusteranalysis

kmeans

在 GPU 支持下对高维数据进行更快的 Kmeans 聚类的相关文章

使用 Keras 时，验证集中未见的类别会出现错误

我有由数值变量和分类变量组成的数据分类变量有很多类别因此我使用嵌入来表示这些类别我的模型是一个简单的神经网络我知道当你定义嵌入层时你需要通过input dim number of categories 1为了解释训练中看不见的类别
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
Tensorflow中的Tensor和Variable有什么区别

有什么区别Tensor and Variable在张量流中我注意到在这个 stackoverflow 答案 https stackoverflow com questions 38556078 in tensorflow what is
conv1D 中形状的尺寸

我尝试过构建一个只有一层的 CNN 但遇到了一些问题事实上编译器告诉我 ValueError 检查模型输入时出错预期的 conv1d 1 input 具有 3 个维度但得到形状为 569 30 的数组这是代码 import num
如何在sklearn决策树中显示特征名称？

我目前有一个决策树将功能名称显示为X index i e X 0 X 1 X 2 etc from sklearn import tree from sklearn tree import DecisionTreeClassifier d
Tensorflow seq2seq 获取序列隐藏状态

我不久前才开始研究tensorflow 我正在研究 seq2seq 模型并以某种方式让教程起作用但我一直坚持获取每个句子的状态据我了解 seq2seq 模型采用输入序列并通过 RNN 为序列生成隐藏状态随后模型使用序列的隐藏状态来
理解高斯混合模型的概念

我试图通过阅读在线资源来理解 GMM 我已经使用 K 均值实现了聚类并且正在了解 GMM 与 K 均值的比较以下是我的理解如有错误请指出 GMM 类似于 KNN 在这两种情况下都实现了聚类但在 GMM 中每个簇都有自己独立的均值和
Tensorflow 到 ONNX 的转换

我目前正在尝试转换我使用本教程创建的已保存且正在工作的 pb 文件 https github com thtrieu darkflow https github com thtrieu darkflow 到 onnx 文件中我目前正在
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
如何在 Tensorflow Keras 中规范化我的图像数据

如前所述我正在尝试在训练模型之前标准化我的数据集我正在使用tf keras preprocessing image ImageDataGenerator之前执行此操作 train data tf cast train data tf f
ubuntu 20.04 上无法获取卷积算法错误~tensorflow-gpu

我有一个 NVIDIA 2070 RTX GPU 我的操作系统是 Ubuntu20 04 我已经使用 conda 安装了tensorflow gpu 包我有not安装了 CUDA toolkit 我相信它还会安装 CUDA toolkit
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe
在具有不平衡数据的管道中进行交叉验证的正确方法

对于给定的不平衡数据我创建了一种不同的标准化管道和一种热编码 numeric transformer Pipeline steps scaler StandardScaler categorical transformer Pipelin
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
对象检测 ARKit 与 CoreML

我正在建设ARKitiPhone 的应用程序我需要检测特定的香水瓶并根据检测到的内容显示内容我使用来自developer apple com的演示应用程序来扫描现实世界的对象并导出 arobject我可以在资产中使用的文件它工作正常
如何从张量流数据集迭代器返回同一批次两次？

我正在转换一些旧代码以使用数据集 API 此代码使用feed dict将一批数据送入列车运行实际上是三次然后重新计算损失以供显示使用同一批所以我需要一个迭代器来返回完全相同的批次两次或多次不幸的是我似乎找不到一种使用张量流数据集

随机推荐

XPath 中的 ., 有什么用？

为什么在某些 XPath 表达式中句号后面使用逗号这是一个例子 Set nlist doc selectNodes book author first name starts with M 我试图用谷歌搜索这个但字面意思运算符似乎不喜
.htaccess 在动态文件夹名称中加载索引

我在 htaccess 加载动态文件夹名称中的索引时遇到问题这是我的目录结构 root products gt this is constant folder name 而不是使用 GET 获取产品 url root products i
访问 google reader 的 Endpoints API 时出错

我正在尝试在iPhone APP中实现google reader 到目前为止我已经成功收到了sid and auth 当我尝试使用以下命令调用 Endpoints API 时问题就出现了GET 这是代码 ASIHTTPRequest re
如何将CIFilter应用到UIView上？

根据Apple docs 过滤属性CALayer不支持iOS 当我使用正在申请的应用程序之一时CIFilter to UIView即 Splice Funimate 和 Artisto 的视频编辑器 Videoshow FX 这意味着我们可
关闭主窗口时 WPF 应用程序不会关闭

我习惯了在 Visual Studio 中进行 WinForms 编程但我想尝试一下 WPF 我向我的项目添加了另一个窗口名为 Window01 主窗口称为MainWindow 之前public MainWindow 构造函数我声明Wi
Eigen 库：在函数中返回矩阵块作为左值

我试图将矩阵块作为函数的左值返回假设我的函数如下所示 Block
Python 和 Numpy 是 nan 和 set

我在使用 Python 的 Numpy set 和 NaN 非数字时遇到了不可预测的行为 gt gt gt set np float64 nan np float64 nan set nan nan gt gt gt set np flo
xcode 9.0.1 / swift 4，没有使用 Objective-C 选择器 'onClick:forEvent:' 声明的方法 [重复]

这个问题在这里已经有答案了 I use swift 4为了构建我的 UI 我创建了一个UIButton并想为其添加一个目标但编译器会抛出警告 No method declared with Objective C selector onC
MySQL：“您的 SQL 语法错误...靠近键...”？ [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我发现了一个非常酷的用于丢失密码的脚本但是这一行给我带来了问题 r mysql query INSERT INTO keys u
ASP.NET Core Identity 更改登录 URL

我正在使用 ASP NET Core 2 1 并且使用脚手架来添加身份工作正常除了当我尝试转到需要登录的页面时它需要我 Identity Account Login ReturnUrl 如何将其更改为仅转到 Account Login
在PyGI中获取窗口句柄

在我的程序中我使用 PyGObject PyGI 和 GStreamer 在 GUI 中显示视频该视频显示在Gtk DrawingArea因此我需要获取它的窗口句柄realize 信号处理程序在 Linux 上我使用以下方法获取该句
错误：任务“：app：mergeDebugResources”执行失败。 > java.lang.ArrayIndexOutOfBoundsException（无错误消息）

你们有人知道 Gradle 构建中的这个异常吗 Error Execution failed for task app mergeDebugResources gt java lang ArrayIndexOutOfBoundsExcept
如何用perl逐句读取文本文件？

我想逐句读取文本文件我的问题是下面的代码仅根据时期分开 usr bin perl use strict use warnings my file data txt open FILE file my buffer while my sen
javascript：全局变量泄漏

每当我向 Firefox 提交插件时我都会收到一封电子邮件告诉我我的一些变量正在泄漏到全局范围内一旦他们告诉我我解决了问题但在那之前有什么方法程序来检查变量是否泄漏到全局范围内 Thanks Both JSLint http w
如何在javascript中动态向对象数组添加值？

这是一个对象数组 var data label 1 value 12 label 1 value 12 label 1 value 12 label 1 value 12 我如何动态地为这些添加值我尝试了以下代码但没有成功 var lab
无法从 com.android.aaptcompiler.ParsedResource@ef79973 提取资源

无法从 com android aaptcompiler ParsedResource ef79973 提取资源无法从 com android aaptcompiler ParsedResource 4c95ce87 提取资源 C Use
Mongoose - 用其他 ID 填充

我有这两个简化的模式我想根据 IP 地址加入它们 var personSchema Schema name String ip String var logSchema Schema message String ip String
如何检索 iPhone 的区域设置

我用谷歌搜索过它但令我有点惊讶的是我找不到它我只想访问设备配置的区域设置我试图找到如何列出所有系统属性以防我能在那里找到区域设置但甚至找不到如何做到这一点我知道认为我之前检索过系统属性但我也记得在谷歌搜索时找到该信息并不容
iPhone SDK中的短信正文

我需要从我的 iPhone 应用程序发送短信 SMS 的正文是以编程方式创建的因此当我点击按钮时短信应用程序应该打开并在其中预先输入我的消息有人知道怎么做吗需要帮忙提前致谢世宾您无法设置短信正文根据官方 SDK 您可以从
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1

在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

在 GPU 支持下对高维数据进行更快的 Kmeans 聚类 的相关文章

随机推荐

热门标签

在 GPU 支持下对高维数据进行更快的 Kmeans 聚类的相关文章