机器学习实战笔记8(kmeans)

2023-11-13

前面的7次笔记介绍的都是分类问题，本次开始介绍聚类问题。分类和聚类的区别在于前者属于监督学习算法，已知样本的标签；后者属于无监督的学习，不知道样本的标签。下面我们来讲解最常用的kmeans算法。

1：kmeans算法

算法过程：Kmeans中文称为k-均值，步骤为：(1)它事先选定k个聚类中心，(2)然后看每个样本点距离那个聚类中心最近，则该样本就属于该聚类中心。(3)求每个聚类中心的样本的均值来替换该聚类中心(更新聚类中心)。(4)不断迭代(2)和(3), 直到收敛。

复杂度：Kmeans算法的时间复杂度为O(m*n*k*d)，其中m为样本的个数，n为维数，k为迭代的次数，d为聚类中心的个数。空间复杂度为O(m*n)。

Costfunction: kmeans聚类是使得SSE(sum of squared error)达到最小，SSE公式表示为：

由于SSE为非凸函数，因此每次聚类并不一定能使SSE达到全局最小值，只能使其达到局部最优解。但是可以重复执行几次kmeans,选取SSE最小的一次作为最终的聚类结果。

2:python代码的实现

from numpy import *
#加载数据
def loadDataSet(fileName):
    dataMat = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = map(float, curLine)    #变成float类型
        dataMat.append(fltLine)
    return dataMat

# 计算欧几里得距离
def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2)))

#构建聚簇中心
def randCent(dataSet, k):
    n = shape(dataSet)[1]
    centroids = mat(zeros((k,n)))
    for j in range(n):
        minJ = min(dataSet[:,j])
        maxJ = max(dataSet[:,j])
        rangeJ = float(maxJ - minJ)
        centroids[:,j] = minJ + rangeJ * random.rand(k, 1)
    return centroids

#k-means 聚类算法
def kMeans(dataSet, k, distMeans =distEclud, createCent = randCent):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))    #用于存放该样本属于哪类及质心距离
    centroids = createCent(dataSet, k)
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False;
        for i in range(m):
            minDist = inf; minIndex = -1;
            for j in range(k):
                distJI = distMeans(centroids[j,:], dataSet[i,:])
                if distJI < minDist:
                    minDist = distJI; minIndex = j
            if clusterAssment[i,0] != minIndex: clusterChanged = True;
            clusterAssment[i,:] = minIndex,minDist**2
        print centroids
        for cent in range(k):
            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]]   # 去第一列等于cent的所有列
            centroids[cent,:] = mean(ptsInClust, axis = 0)
    return centroids, clusterAssment

注意：度量聚类效果的指标是SSE(Sum of Squared Error, 误差平方和)，即属于同一聚类中心的所有样本点到该聚类中心的距离和。通常有以下两种后处理的方法来提高算法的聚类性能。

(1) 将具有最大SSE值的簇划分成两个簇。

(2) 合并最近的质心或者合并两个使得SSE增幅最小的质心。

3：二分k-均值算法

为了克服k-均值算法收敛于局部最小值的问题，有人提出了另外一种称为二分k-均值的算法。该算法首先将所有点作为一个簇，然后将该簇一分为二。之后选择其中一个簇继续进行划分，选择哪一个簇进行划分有两种方法。(1)该划分是否可以最大程度地降低SSE的值。(2)选择SSE最大的簇进行划分。划分过程不断重复，直到簇的数目达到用户指定数目为止。

#2分kMeans算法    #两种方法：(1)是否可以最大程度的降低SSE的值   (2)选择SSE最大的簇进行划分
def bitKmeans(dataSet, k, distMeas=distEclud):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))
    centroid0 = mean(dataSet, axis=0).tolist()[0]
    centList =[centroid0] 
    for j in range(m):
        clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2
    while (len(centList) < k):
        lowestSSE = inf             #无穷大
        for i in range(len(centList)):
            ptsInCurrCluster = dataSet[nonzero(clusterAssment[:,0].A==i)[0],:]
            centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)
            sseSplit = sum(splitClustAss[:,1])
            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1])
            print "sseSplit, and notSplit: ",sseSplit,sseNotSplit
            if (sseSplit + sseNotSplit) < lowestSSE:
                bestCentToSplit = i
                bestNewCents = centroidMat
                bestClustAss = splitClustAss.copy()
                lowestSSE = sseSplit + sseNotSplit
        bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList)          #二分后标签更新
        bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit
        print 'the bestCentToSplit is: ',bestCentToSplit
        print 'the len of bestClustAss is: ', len(bestClustAss)
        centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]           #加入聚类中心
        centList.append(bestNewCents[1,:].tolist()[0])
        clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss      #更新SSE的值(sum of squared errors)
    return mat(centList), clusterAssment

此外：还有层次聚类算法和密度聚类算法

层次聚类算法有两种，一种是凝聚的聚类算法，另外一种是层次的聚类算法

密度聚类算法用的比较少，这里不做详细讲解

DBSCAN是一个比较有代表性的密度聚类算法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习实战笔记8(kmeans) 的相关文章

K-Medoids 真的比 K-Means 更擅长处理异常值吗？（举例说明相反）

K 中心点 and K Means是两种流行的分区聚类方法我的研究表明当存在异常值时 K Medoids 更擅长对数据进行聚类 source https stackoverflow com questions 21619794 what
如何在R编程中显示同一坐标中的总数

更新2017年9月11日问题这是我在 R 中集群 kmode 的代码 library klaR setwd D kmodes data to cluster lt read csv kmodes csv header TRUE sep c
lr推荐模型特征重要性分析

在分析lr模型特征重要性之前需要先明白lr模型是怎么回事儿 lr模型公式是sigmoid w1 x1 w2 x2 wn xn 其中w1 w2 wn就是模型参数 x1 x2 xn是输入的特征值对于lr模型来说特征可以分为两个粒度一个是
MIT_线性代数笔记：第 23 讲微分方程和 exp(At)

目录微分方程 Differential equations 矩阵指数函数 Matrix exponential e A t e At
lr推荐模型特征重要性分析

在分析lr模型特征重要性之前需要先明白lr模型是怎么回事儿 lr模型公式是sigmoid w1 x1 w2 x2 wn xn 其中w1 w2 wn就是模型参数 x1 x2 xn是输入的特征值对于lr模型来说特征可以分为两个粒度一个是
Python机器学习实战：用Python构建10个有趣的应用

机器学习是一门强大的工具可以用于解决各种各样的问题通过学习机器学习您可以开发出能够自动化任务做出预测甚至创造艺术的应用程序如果您是一名 Python 开发人员那么您将很高兴知道有许多可以用 Python 构建的有趣机器学习应用
kmean 需要三角不等式吗？

我想知道对于 kmeans 中使用的距离度量是否需要三角不等式 k 均值是designed for 欧几里得距离正好满足三角不等式使用其他距离函数是有风险的因为它可能会停止收敛然而原因是not三角不等式但是平均值可能不会最小化距离
自动驾驶轨迹预测

目录神经网络轨迹预测综述比较新的轨迹预测网络 Uber LaneRCNN 5 Google VectorNet 6 Huawei HOME 7 Waymo TNT 8 Aptive Covernet 9 NEC R2P2 10 商汤 T
基于机器学习的贷中风险预测模型-江苏银行“随e融”杯-二等奖

文章目录源码下载地址项目介绍界面预览项目备注毕设定制咨询源码下载地址源码下载地址点击这里下载源码项目介绍基于机器学习的贷中风险预测模型江苏银行
【需求响应】改进连续时间控制方法用于分散式需求响应的恒温负荷研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码及文章
R - “princomp”只能与比变量更多的单位一起使用

我正在使用 R 软件 R Commander 对我的数据进行聚类我的数据有一个较小的子集包含 200 行和大约 800 列尝试 kmeans 聚类并在图表上绘制时出现以下错误 princomp 只能与比变量更多的单位一起使用然后我创
scipy 中的 kmeans 和 kmeans2 有什么区别？

我是机器学习的新手想知道 scipy 中 kmeans 和 kmeans2 之间的区别根据文档它们都使用 k means 算法但是如何选择它们呢根据文档 kmeans2 似乎是标准的 k 均值算法并且运行直到收敛到局部最优并且
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
机器学习算法实战案例：LSTM实现多变量多步负荷预测

文章目录 1 数据处理 1 1 数据集简介 1 2 数据集处理 2 模型训练与预测 2
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
对一维数据进行最佳聚类？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有人有一篇论文解释如何CKmeans 1d dp http cran r project org
K 均值可用于帮助基于像素值的图像分离吗？

我正在尝试根据像素值分离灰度图像假设一个 bin 中的像素为 0 到 60 另一个 bin 中的像素为 60 120 120 180 依此类推直到 255 范围在此大致等距案件然而通过使用 K 均值聚类是否可以更实际地测量我的像素值
使用谱聚类对看不见的点进行聚类

我在用谱聚类 http papers nips cc paper 2092 on spectral clustering analysis and an algorithm方法对我的数据进行聚类实施似乎工作正常但是我有一个问题我有一
Python scikit-learn KMeans 在计算轮廓分数时被杀死 (9)

我目前正在研究一个图像数据集 250 000 张图像因此与特征向量一样多每个图像都由 132 个特征组成并尝试使用 sklearn 提供的 KMeans 函数我在 Mac OS X 10 10 Python 2 7 和 sklear
从彩色背景中提取黑色对象

人眼很容易辨别black来自其他颜色但是计算机呢我在普通的A4纸上打印了一些色块由于组成彩色图像有青色品红色和黄色三种墨水所以我设置每个块的颜色C 20 C 30 C 40 C 50 以及其余两种颜色是 0 这是我的源图像的第一列

随机推荐

IDEA打不开（找不到）RunDashBoard问题

我的IDEA版本是2022版最近学习微服务发现打不开RunDashBoard 可能是更改了名称叫做Services 点击下方的Services 再点击加号选择Run Configuration Type 之后选择springboot 就
vulnhub靶机Me-and-My-Girlfriend-1打靶记录

准备环境 kali linux ip 172 16 10 149 Me and My Girlfriend 1 虚拟机n 渗透工具 kali虚拟机 nmap 端口扫描工具 pker后台扫描工具谷歌xff伪造插件 X Forwarded F
基于SpringBoot+微信小程序的失物招领小程序

基于SpringBoot 微信小程序的失物招领小程序全网粉丝20W csdn特邀作者博客专家 CSDN新星计划导师 java领域优质创作者博客之星掘金华为云阿里云 InfoQ等平台优质作者专注于Java技术领域和毕业项目实战
uiautomator2实例

from pytestreport import TestRunner import uiautomator2 as u2 import email import os import smtplib import random import
以太坊燃烧第一个24小时，中文社区在关心什么？

8月5日在区块高度 12965000 北京时间8月5日20 33 备受瞩目的以太坊伦敦升级完成伦敦升级涉及众多提案其中最令人关注的是EIP 1559 该提案引入销毁机制让链上费用更合理同时也一定程度缓解了以太坊的通胀截至8月6日
JDK Self-Extracting Installation for Linux (64-bit)

http www oracle com technetwork java javase install linux 64 self extracting 142068 html JDK Documentation System Requir
nodejs剪切视频，提取音频，上传播放

简单说说实现方案首先要有演唱会的链接使用ibili 这个库下载视频也可以自己抓取视频链接请求下载这里有很多方法将视频保存在本地后整理出每一首歌曲对应的时分秒我找的这个视频在某站评论中已经有人整理过了所以我用 ibili 这个
netty在xxl-job中的使用分析

xxl job版本 2 3 0 netty版本 netty all 4 1 63 final 一基于spring容器客户端启动流程客户端如springboot应用引入xxl core的jar包后启动springboot过程中会调用x
Mysql8.0 安装手册(linux)

目录添加Mysql的 yum 仓库安装mysql 开启远程访问添加Mysql的 yum 仓库访问 https dev mysql com downloads repo yum 下载 yum 源点击 download 复制下载链接使
00.JavaScript基础

0o 参考资料 js https codeofli github io 2019 11 js note javaScript javaScript vue https codeofli github io 2019 11 js note v
@ConfigurationProperties灵活的映射配置信息

介绍在用 ConfigurationProperties最常用的功能是用此注解对类进行修饰设置好prefix前缀这样在springboot的配置文件中配置信息的key和value就会对应的配置到类中的属性上以设置eureka信息为
nas挂载windows_【群晖系统】群晖下直接挂载WINDOWS的NTFS格式硬盘

群晖的硬盘格式是EXT4 相对于WINDOWS下的NTFS格式大家较不熟悉在数据管理使用恢复等都不如NTFS方便如果群晖能支持NTFS格式就好了相信每一位装黑群晖的朋友当时都会有这样的想法其实群晖是支持外部设备的NTFS格式
c++实现引用计数

概述当有指针指向同一块内存空间时计数器加1 没增加一个指向该内存空间的指针计数器加1 同理当原本指向该内存空间的指针指向另一块内存计数器减1 被指向的另一个内存的计数器加1 下面是一个引用计数的一种实现示例直接上代码总共分为
uni-app项目中如何使用scss less

前言由于公司业务调整特意学习下uni项目框架其实根据官方api就是实现很多功能其实都是一些小坑要走下面来说一下uni项目中如何使用scss vue编写中我们可以直接使用下面这样方法多方便
Eclispse中Run on Server窗口让选择Server，但已经存在的选择不了

对于这种问题通常是因为版本不匹配造成的 jdk版本 Dynamic Web Modules版本只要改到相应版本就好了 jdk7 时Dynamic Web Modules应设为2 5 如果无法修改可以新建一个工程在新建工程时选择Dyn
记忆深处有尘埃——Memory Compiler

Memory是大家Floorplan中经常使用到一个器件而且需要花费不少时间去摆放它 Memory的种类很多各种类型还分别具有不同的参数那大家有没有想过对一个设计来说我们是如何去选择合适的memory类型不同的类型有什么区别在
作为一名程序员，如何开展自己的副业？月赚三万的真实故事

作为一名程序员除了敲代码之外还应该有一些副业我们都是程序员大多数都是普通人都在替别人打工虽然收入在别人眼中挺高但是连个首付都付不起这时首先得要发展副业与其拿着死工资还不如做些啥今天我所说的不是教大家如何去挣很多钱而
mavon-editor 页面回显使用turndown将HTML转为markdown

1 安装npm install turndown npm install turndown 2页面使用 v model markdowntext
后端接口返回近万条数据，前端渲染缓慢，content Download 时间长的优化方案

前言性能优化是前端绕过不去的一道门槛甚是重要最近一年也很少有机会在项目中进行前端性能优化一直在忙于业务开发最近终于是来了机会遇到了这样的场景心里也甚是激动写个随笔记录下性能优化的过程及逻辑有需要的可以参考下场景后端
机器学习实战笔记8(kmeans)

前面的7次笔记介绍的都是分类问题本次开始介绍聚类问题分类和聚类的区别在于前者属于监督学习算法已知样本的标签后者属于无监督的学习不知道样本的标签下面我们来讲解最常用的kmeans算法 1 kmeans算法算法过程 Kmeans中

机器学习实战笔记8(kmeans)

机器学习实战笔记8(kmeans) 的相关文章

随机推荐

热门标签