KMeans 对不平衡数据进行聚类

2024-05-15

我有一组包含 50 个特征（c1、c2、c3 ...）的数据，行数超过 80k。

每行包含标准化数值（范围 0-1）。它实际上是一个标准化的虚拟变量，其中一些行只有很少的特征，3-4（即如果没有值则分配 0）。大多数行大约有 10-20 个特征。

我使用 KMeans 对数据进行聚类，结果总是产生一个包含大量成员的集群。经过分析，我注意到少于 4 个特征的行往往会聚集在一起，这不是我想要的。

有没有办法平衡集群？

它不是 k 均值的一部分客观的产生平衡的簇。实际上，具有平衡簇的解决方案可能很糟糕（仅考虑具有重复项的数据集）。 K 均值最小化平方和，将这些对象放入一个簇中似乎是有益的。

您看到的是对稀疏、非连续数据使用 k 均值的典型效果。编码分类变量、二元变量和稀疏数据不太适合 k 均值使用means。此外，您可能还需要仔细权衡变量。

现在有一个修补程序可能会改善您的结果（至少感知到的质量，因为我认为这不会让他们统计上更好）的方法是将每个向量标准化为单位长度（欧几里得范数 1）。这将强调具有很少非零条目的行。您可能会更喜欢这些结果，但它们更难解释。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

clusteranalysis

kmeans

datascience

featureengineering

KMeans 对不平衡数据进行聚类的相关文章

通过 Scrapy 抓取 Google Analytics

我一直在尝试使用 Scrapy 从 Google Analytics 获取一些数据尽管我是一个完全的 Python 新手但我已经取得了一些进展我现在可以通过 Scrapy 登录 Google Analytics 但我需要发出 AJAX
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
使用 scala 在 Flink 中进行实时流预测

弗林克版本 1 2 0斯卡拉版本 2 11 8 我想使用 DataStream 来使用 scala 中的 flink 模型进行预测我在使用 scala 的 flink 中有一个 DataStream String 其中包含来自 kafka
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di

随机推荐

就 size_t 而言，“目标平台上最大可能对象的大小”是多少

我正在阅读有关的文章size t在 C C 中http web archive org web 20081006073410 http www embedded com columns programmingpointers 2009001
使用 HTTPS GRC 从 AWS Codecommit 获取私有存储库

我正在尝试导入位于 AWS codecommit 中的模块为了克隆存储库我使用 HTTPS GRC Git 远程代码提交方法该方法使用 Google Suite 凭证来访问 AWS 控制台我用来克隆存储库的命令是 git clon
从当前页面位置解析锚点的最简单方法是什么？

我需要将锚定出window location在 JavaScript 中例如以下 url http www example com page html anchor1 最简单的方法是什么 window location hash http
未选择为此解决方案配置构建项目

错误 gt Skipped Deploy Project DrawShape Android Configuration Debug Any CPU gt Project not selected to build for this sol
dagger.hilt.android.internal.managers.ViewComponentManager$FragmentContextWrapper 无法转换为 android.app.Activity

我正在使用具有一些自定义视图实现的第三方库在实现中他们调用Utils showSoftKeyboard context as Activity 这与使用片段作为 AndroidEntryPoint 一起导致以下异常 java lang
没有得到 popen 的完整回复

嗨我正在使用 popen 运行一个进程 handle popen python scriptos py r while feof handle data fgets handle echo gt data 我只从返回 5 行的进程中获取
在数据库中存储密码的最佳方法[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何轻松地将 Ajax、perl 和 JSON 结合使用？

我正在尝试使用 Ajax 制作一个网页 Example 我创建了一个 Perl CGU 文件来触发一个简单的帖子文件 test cgi name 托马斯回复短信你的名字是托马斯我创建了一个可以使用该帖子的 html 文件但随后页面
我们如何从 Android 通知中提取 bigpicturestyle 图像？

我有一个通知侦听器服务可以读取来自其他应用程序的通知经用户许可并提取所有数据能够访问除通知展开视图中显示的图像之外的所有内容我也在阅读 EXTRA PICTURE 意图值 if extras containsKey Notific
如果函数来自外部 JavaScript 库，如何处理 JavaScript 中冲突的函数名称？

我有两个外部 JavaScript lib 文件我必须加载到同一个文件上JSP http en wikipedia org wiki JavaServer Pages页它们都有一个名为 autoSave 的函数两者都没有参数我无法修
使用 vim pythoncomplete 的 Python 文档字符串不显示我自己的类函数的换行符

我在尝试使用时得到了一些意想不到的结果Python 全方位补全 http www vim org scripts script php script id 1542在我自己的类函数上函数的文档字符串未正确设置换行符格式如下图所示当我从
如何在yarn中指定本地注册表？

我有一个本地 Nexus 服务器基本上我希望在上线之前先查看一下它prefer offline yarn install prefer offline cache folder C folder yarn cache preferred
正则表达式匹配带有连字符和/或撇号的单词

我正在寻找一个正则表达式来匹配带有连字符和或撇号的单词到目前为止我有 w w w 这在大多数情况下都有效但如果先有一个撇号然后有一个连字符例如 qu est ce 则它不匹配我可以附加更多选项尽管也许还有另一种更有效的方法
可能的 std::async 实现错误 Windows

看来 std async 的 Windows 实现存在错误在重负载下大约每秒启动 1000 个异步线程异步任务永远不会被调度并且等待返回的 future 会导致死锁请参阅这段代码使用延迟启动策略而不是异步进行修改 Bundlin
c# - 如何列出硬盘上的所有文件和文件夹？

我想列出我的程序有权访问的所有文件和文件夹并将它们写入文本文件我如何获得该列表我需要一种方法来捕获或不对不可访问的文件夹抛出 UnauthorizedAccessExceptions 请尝试使用代码 private static IEn
EF6 Code First 支持表值函数吗？

是否可以在 EF6 Code First 中调用 TVF 我首先使用 EF6 数据库启动了一个新项目 EF 能够将 TVF 导入到模型中并调用它就好了但是对于我一直在处理的没有 RI 的大型只读数据库更新模型变得非常耗时并且存在问题
React 组件等待所需的 props 渲染

我正在父组件内部声明一个组件我想在一个文件中建立特定的道具然后在父组件中我希望能够同时为子组件建立其他道具因为它们是共享属性在大多数情况下我的问题是子组件尝试渲染并失败因为首先没有建立所需的道具类型有没有办法告诉子组件等待
如何使用 kotlin Android 从 Url 读取 JSON？

我正在使用 kotlin 来开发应用程序现在我想从服务器获取 JSON 数据在java中我实现了Asyntask以及Rxjava来从Url读取JSON 我也在谷歌搜索但我无法获得满足我的要求的正确详细信息如何使用 kotlin 从
使用 Google 云端硬盘缩略图的正确方法是什么？

我首先尝试存储和使用 API 返回的链接但它会在短时间内过期然后我尝试在本地下载并存储图像并从我的服务器提供它但是当我没有使用我的帐户登录时缩略图链接会抛出 404 错误尽管文档是完全公开的提供检索文档缩略图的正确方法是什么
KMeans 对不平衡数据进行聚类

我有一组包含 50 个特征 c1 c2 c3 的数据行数超过 80k 每行包含标准化数值范围 0 1 它实际上是一个标准化的虚拟变量其中一些行只有很少的特征 3 4 即如果没有值则分配 0 大多数行大约有 10 20 个特征我使用

KMeans 对不平衡数据进行聚类

KMeans 对不平衡数据进行聚类 的相关文章

随机推荐

热门标签

KMeans 对不平衡数据进行聚类的相关文章