机器学习算法与Python实践之（六）二分k均值聚类

2023-11-07

机器学习算法与Python实践之（六）二分k均值聚类

http://blog.csdn.net/zouxy09

机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。

在上一个博文中，我们聊到了k-means算法。但k-means算法有个比较大的缺点就是对初始k个质心点的选取比较敏感。有人提出了一个二分k均值（bisecting k-means）算法，它的出现就是为了一定情况下解决这个问题的。也就是说它对初始的k个质心的选择不太敏感。那下面我们就来了解和实现下这个算法。

一、二分k均值（bisecting k-means）算法

二分k均值（bisecting k-means）算法的主要思想是：首先将所有点作为一个簇，然后将该簇一分为二。之后选择能最大程度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。以此进行下去，直到簇的数目等于用户给定的数目k为止。

以上隐含着一个原则是：因为聚类的误差平方和能够衡量聚类性能，该值越小表示数据点月接近于它们的质心，聚类效果就越好。所以我们就需要对误差平方和最大的簇进行再一次的划分，因为误差平方和越大，表示该簇聚类越不好，越有可能是多个簇被当成一个簇了，所以我们首先需要对这个簇进行划分。

二分k均值算法的伪代码如下：

***************************************************************

将所有数据点看成一个簇

当簇数目小于k时

对每一个簇

计算总误差

在给定的簇上面进行k-均值聚类（k=2）

计算将该簇一分为二后的总误差

选择使得误差最小的那个簇进行划分操作

***************************************************************

二、Python实现

我使用的Python是2.7.5版本的。附加的库有Numpy和Matplotlib。具体的安装和配置见前面的博文。在代码中已经有了比较详细的注释了。不知道有没有错误的地方，如果有，还望大家指正（每次的运行结果都有可能不同）。里面我写了个可视化结果的函数，但只能在二维的数据上面使用。直接贴代码：

biKmeans.py

#################################################
# kmeans: k-means cluster
# Author : zouxy
# Date   : 2013-12-25
# HomePage : http://blog.csdn.net/zouxy09
# Email  : zouxy09@qq.com
#################################################

from numpy import *
import time
import matplotlib.pyplot as plt


# calculate Euclidean distance
def euclDistance(vector1, vector2):
	return sqrt(sum(power(vector2 - vector1, 2)))

# init centroids with random samples
def initCentroids(dataSet, k):
	numSamples, dim = dataSet.shape
	centroids = zeros((k, dim))
	for i in range(k):
		index = int(random.uniform(0, numSamples))
		centroids[i, :] = dataSet[index, :]
	return centroids

# k-means cluster
def kmeans(dataSet, k):
	numSamples = dataSet.shape[0]
	# first column stores which cluster this sample belongs to,
	# second column stores the error between this sample and its centroid
	clusterAssment = mat(zeros((numSamples, 2)))
	clusterChanged = True

	## step 1: init centroids
	centroids = initCentroids(dataSet, k)

	while clusterChanged:
		clusterChanged = False
		## for each sample
		for i in xrange(numSamples):
			minDist  = 100000.0
			minIndex = 0
			## for each centroid
			## step 2: find the centroid who is closest
			for j in range(k):
				distance = euclDistance(centroids[j, :], dataSet[i, :])
				if distance < minDist:
					minDist  = distance
					minIndex = j
			
			## step 3: update its cluster
			if clusterAssment[i, 0] != minIndex:
				clusterChanged = True
				clusterAssment[i, :] = minIndex, minDist**2

		## step 4: update centroids
		for j in range(k):
			pointsInCluster = dataSet[nonzero(clusterAssment[:, 0].A == j)[0]]
			centroids[j, :] = mean(pointsInCluster, axis = 0)

	print 'Congratulations, cluster using k-means complete!'
	return centroids, clusterAssment

# bisecting k-means cluster
def biKmeans(dataSet, k):
	numSamples = dataSet.shape[0]
	# first column stores which cluster this sample belongs to,
	# second column stores the error between this sample and its centroid
	clusterAssment = mat(zeros((numSamples, 2)))

	# step 1: the init cluster is the whole data set
	centroid = mean(dataSet, axis = 0).tolist()[0]
	centList = [centroid]
	for i in xrange(numSamples):
		clusterAssment[i, 1] = euclDistance(mat(centroid), dataSet[i, :])**2

	while len(centList) < k:
		# min sum of square error
		minSSE = 100000.0
		numCurrCluster = len(centList)
		# for each cluster
		for i in range(numCurrCluster):
			# step 2: get samples in cluster i
			pointsInCurrCluster = dataSet[nonzero(clusterAssment[:, 0].A == i)[0], :]

			# step 3: cluster it to 2 sub-clusters using k-means
			centroids, splitClusterAssment = kmeans(pointsInCurrCluster, 2)

			# step 4: calculate the sum of square error after split this cluster
			splitSSE = sum(splitClusterAssment[:, 1])
			notSplitSSE = sum(clusterAssment[nonzero(clusterAssment[:, 0].A != i)[0], 1])
			currSplitSSE = splitSSE + notSplitSSE

			# step 5: find the best split cluster which has the min sum of square error
			if currSplitSSE < minSSE:
				minSSE = currSplitSSE
				bestCentroidToSplit = i
				bestNewCentroids = centroids.copy()
				bestClusterAssment = splitClusterAssment.copy()

		# step 6: modify the cluster index for adding new cluster
		bestClusterAssment[nonzero(bestClusterAssment[:, 0].A == 1)[0], 0] = numCurrCluster
		bestClusterAssment[nonzero(bestClusterAssment[:, 0].A == 0)[0], 0] = bestCentroidToSplit

		# step 7: update and append the centroids of the new 2 sub-cluster
		centList[bestCentroidToSplit] = bestNewCentroids[0, :]
		centList.append(bestNewCentroids[1, :])

		# step 8: update the index and error of the samples whose cluster have been changed
		clusterAssment[nonzero(clusterAssment[:, 0].A == bestCentroidToSplit), :] = bestClusterAssment

	print 'Congratulations, cluster using bi-kmeans complete!'
	return mat(centList), clusterAssment

# show your cluster only available with 2-D data
def showCluster(dataSet, k, centroids, clusterAssment):
	numSamples, dim = dataSet.shape
	if dim != 2:
		print "Sorry! I can not draw because the dimension of your data is not 2!"
		return 1

	mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']
	if k > len(mark):
		print "Sorry! Your k is too large! please contact Zouxy"
		return 1

	# draw all samples
	for i in xrange(numSamples):
		markIndex = int(clusterAssment[i, 0])
		plt.plot(dataSet[i, 0], dataSet[i, 1], mark[markIndex])

	mark = ['Dr', 'Db', 'Dg', 'Dk', '^b', '+b', 'sb', 'db', '<b', 'pb']
	# draw the centroids
	for i in range(k):
		plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 12)
		
	plt.show()

三、测试结果

测试数据是二维的，共80个样本。有4个类。具体见上一个博文。

测试代码：

test_biKmeans.py

#################################################
# kmeans: k-means cluster
# Author : zouxy
# Date   : 2013-12-25
# HomePage : http://blog.csdn.net/zouxy09
# Email  : zouxy09@qq.com
#################################################

from numpy import *
import time
import matplotlib.pyplot as plt

## step 1: load data
print "step 1: load data..."
dataSet = []
fileIn = open('E:/Python/Machine Learning in Action/testSet.txt')
for line in fileIn.readlines():
	lineArr = line.strip().split('\t')
	dataSet.append([float(lineArr[0]), float(lineArr[1])])

## step 2: clustering...
print "step 2: clustering..."
dataSet = mat(dataSet)
k = 4
centroids, clusterAssment = biKmeans(dataSet, k)

## step 3: show the result
print "step 3: show the result..."
showCluster(dataSet, k, centroids, clusterAssment)

这里贴出两次的运行结果：

不同的类用不同的颜色来表示，其中的大菱形是对应类的均值质心点。

事实上，这个算法在初始质心选择不同时运行效果也会不同。我没有看初始的论文，不确定它究竟是不是一定会收敛到全局最小值。《机器学习实战》这本书说是可以的，但因为每次运行的结果不同，所以我有点怀疑，自己去找资料也没找到相关的说明。对这个算法有了解的还望您不吝指点下，谢谢。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习算法与Python实践之（六）二分k均值聚类的相关文章

尽管极其懒惰，但如何在 Python 中模拟 IMAP 服务器？

我很好奇是否有一种简单的方法来模拟 IMAP 服务器例如imaplib模块在Python中 without做很多工作是否有预先存在的解决方案理想情况下我可以连接到现有的 IMAP 服务器进行转储并让模拟服务器在真实的邮箱电子
Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

如何重新启动k8s集群,并查看的状态

重新启动k8s集群的方法取决于您使用的部署方式如果您使用的是kubeadm部署可以使用以下命令重启集群 kubeadm reset kubeadminit 如果您使用的是其他部署工具请按照该工具的说明操作查看集群状态可以使用kube
C#显式实现接口函数

如果一个类实现了一个接口他可以选择显示实现这个接口如果显示实现了接口的话要调用接口的方法就必须将类型转换为接口去调用如果要使用类的实例去调用就必须为类实现该接口函数例如 interface IShowMessage void
Vue3：Typescript与组合式API、defineProps、defineEmits等使用

标注类型 props 使用 defineProps 使用
【SQL Server 2016】&【SSMS 17】安装

一 SQL Server 2016安装 1 1 光盘映像下载 SQL Server Downloads 1 2 安装光盘映像首次安装点击全新SQL Server独立安装或向现有安装添加功能产品密钥自动输入下一步勾选我接受许可条款
解决yolov7bug(Command ‘git tag‘ returned non-zero exit status 128.)(IndexError: list index out of ran)

1 问题执行train py Command git tag returned non zero exit status 128 原因使用预训练权重但路径错误未找到本地预训练权重它会自动下载下载被墙解决方法从github下载
透视投影详解

透视投影详解概述投影变换完成的是如何将三维模型显示到二维视口上这是一个三维到二维的过程你可以将投影变换看作是调整照相机的焦距它模拟了为照相机选择镜头的过程投影变换是所有变换中最复杂的一个视锥体视锥体是一个三维体他的位置和摄
electron 获取电脑mac地址遇到的坑

最近公司需求做一个exe程序无奈只是一个小前端只能使用electron来实现了其中一个需求就是每个账号绑定唯一的电脑这里选用网卡的mac地址来做这个唯一的字段代码很简单测试也很顺利 const mainWindow new Br
房地产投资占GDP比例畸高中国房地产泡沫是一颗毒瘤

转 http house ifeng com detail 2014 05 04 46139202 0 shtml 房地产投资占GDP比例畸高 2013年房地产投资占GDP比例高达16 而事实上从1960年来但凡房地产投资占GDP比例高于6
昇思MindSpore安装教程

目录昇思MindSpore安装教程 MindSpore 安装MindSpore 开始安装创建虚拟环境进入工作目录下载完成验证是否成功安装关注MindSpore社区官方号昇思MindSpore安装教程 MindSpore 它是华
[js] : js 设置 style 的 important

const div document getElementById xxx div style setProperty height 100px important api 详情参见 CSSStyleDeclaration getProp
论文笔记：Blockchain in Industries: A Survey

一基本信息论文题目 Blockchain in Industries A Survey 发表时间 IEEE Access 2019 作者及单位二摘要区块链技术近来已成为研究和工业界的最前沿因为它们为许多行业带来了潜在的好处这是
02_Numpy学习笔记（下）：随机采样

02 Numpy学习笔记下随机采样文章目录 02 Numpy学习笔记下随机采样一离散型随机变量的分布 1 二项分布 2 泊松分布 3 超几何分布二连续型随机变量的分布 1 均匀分布 2 正态分布 3 指数分布三其他随机
华为OD机试真题 Java 实现【日志采集系统】【2023Q1 100分】，附详细解题思路

目录一题目描述二输入描述三输出描述四解题思路五 Java算法源码六效果展示 1 输入 2 输出 3 说明一题目描述日志采集是运维系统的的核心组件日志是按行生成每行记做一条由采集系统分批上报如果上报太频繁
Python装饰器探究

说在前边装饰器作为Python中的一个比较实用的东西在我们日常库的使用过程中经常使用但是其细节问题我们却常常忘记考虑本文章就此问题写建装饰器代码来进行一步一步分析装饰器实验 1 我们常见的装饰器使用方式 from functool
ROS激光SLAM导航理解

ROS激光SLAM导航理解注最近学习ROS的激光导航知识需要理清ROS的SLAM 环境感知 costmap 与导航算法为防止自己忘记将觉得有价值的内容收集于此对AGV来说 SLAM是个大大坑环境感知和局部运动控制也是大坑学习
数据库添加/删除/修改表字段（超详细）

Oracle 添加删除修改表字段超详细 1 添加表字段 1 1 语法结构 1 2 举例说明 1 新建学生信息表该步骤可忽略 2 初始表样子 3 语法解释 2 修改表字段 2 1 语法结构 1 修改字段属性 2 修改字段名 2 2
games101课程作业，在Vs2019环境下的配置环境（不使用虚拟机）

为什么不使用虚拟机因为虚拟机使用ubuntu x64版本系统是一个从未接触过的系统不好使用虚拟机中无法使用中文输入法无法对代码进行注释不利于学习虚拟机性能差打开两三个文件就卡令人抓狂要使用终端进行编译很是麻烦还是喜欢
面试经典-不被忽略的@property

我们都知道 property是用来声明属性的可以保存类的状态或信息而与其相关的内容诸如copy weak 深拷贝等经常会在面试的过程中出现接下来深入下这些模糊熟悉的内容理理顺内容概要 1 property的本质 2 自动合成
Profinet 的交互流程

Profinet 的交互流程启动过程在启动Profinet IO设备时在设置IP地址之前使用DCP协议该协议类似于DHCP协议 PLC发送DCP广播消息 Identify 子网上的所有IO设备都使用本身的MAC地址进行应答 PLC
机器学习算法与Python实践之（六）二分k均值聚类

机器学习算法与Python实践之六二分k均值聚类 zouxy09 qq com http blog csdn net zouxy09 机器学习算法与Python实践这个系列主要是参考机器学习实战这本书因为自己想学习Python 然

机器学习算法与Python实践之（六）二分k均值聚类

机器学习算法与Python实践之（六）二分k均值聚类 的相关文章

随机推荐

热门标签

机器学习算法与Python实践之（六）二分k均值聚类的相关文章