100-Days-Of-ML系列Day

2023-11-10

今天继续学习机器学习算法——KNN。
KNN是通过测量不同特征值之间的距离进行分类的一种算法。它的思路是：如果一个样本在特征空间的k个最相似（即特征空间中最近邻）的样本大多数属于某一个类别，则该样本也属于这个类别，其中k通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别决定待分样本所属的类别。
下面通过一个简单的例子说明一下：如下图，要确定绿色圆属于哪个类别。假设k取3，则绿色圆的最近样本为实线圆圈，其中红色三角形占2/3，蓝色四方形占1/3，则认为绿色圆属于红色三角形的类别。当k取5时，绿色圆的最近样本为虚线圆圈，其中红色三角形占2/5，蓝色四方形占3/5，则认为绿色圆属于蓝色四方形的类别。
在这里插入图片描述
总结一下，KNN算法的具体步骤如下：

计算距离：给定分类对象，计算它与训练集中每个样本的距离
找最近邻：找出与分类对象最近的k个训练样本，作为分类对象的最近邻
确定类别：根据这k个最近邻的主要类别作为分类对象的类别

从上面的步骤我们可以看到，计算距离是KNN算法中的核心模块，下面介绍几种常用的距离计算方法：

欧式距离 d i s t ( X , Y ) = ∑ i = 1 n ( x i − y i ) 2 dist\left( {X,Y} \right) = \sqrt {\sum\limits_{i = 1}^n {{{\left( {{x_i} - {y_i}} \right)}^2}} } dist(X,Y)=i=1∑n(xi−yi)2
欧式距离是最常见的距离度量，衡量多维空间中各个点之间的绝对距离。
因为计算是基于各维度特征的绝对数值，所以欧式距离需要保证各指标在相同的刻度级别，比如对身高（cm）和体重（kg）两个单位不同的指标使用欧式距离可能使结果失效。
曼哈顿距离 d i s t ( X , Y ) = ∑ i = 1 n ∣ x i − y i ∣ dist\left( {X,Y} \right) = \sum\limits_{i = 1}^n {\left| {{x_i} - {y_i}} \right|} dist(X,Y)=i=1∑n∣xi−yi∣
曼哈顿距离来源于城市区块距离，是将多个维度上的距离进行求和后的结果
切比雪夫距离 d i s t ( X , Y ) = lim ⁡ p → ∞ ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 / p = max ⁡ ∣ x i − y i ∣ dist\left( {X,Y} \right) = \mathop {\lim }\limits_{p \to \infty } {\left( {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^p}} } \right)^{1/p}} = \max \left| {{x_i} - {y_i}} \right| dist(X,Y)=p→∞lim(i=1∑n∣xi−yi∣p)1/p=max∣xi−yi∣
明可夫斯基距离 d i s t ( X , Y ) = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 / p dist\left( {X,Y} \right) = {\left( {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^p}} } \right)^{1/p}} dist(X,Y)=(i=1∑n∣xi−yi∣p)1/p
上面的欧式距离、曼哈顿距离和切比雪夫距离都是明可夫斯基距离在特殊条件下的应用。
马哈拉诺比斯距离
既然欧式距离无法忽略指标度量的差异，所以使用欧式距离之前需要对底层指标进行数据的标准化，而基于各指标维度进行标准化后再使用欧式距离就衍生出另外的一个距离度量——马哈拉诺比斯距离（Mahalanobis Distance），简称马氏距离。

下面总结一下KNN算法的优缺点：
优点

简单、有效。
重新训练的代价较低
计算时间和空间线性于训练集的规模
由于KNN方法主要靠周围有限的近邻样本，而不是靠判别类域的方法来确定所属类别，因此对于类域交叉或重叠较多的待分样本集来说，KNN方法较其他方法更合适。
该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。

缺点：

KNN算法是懒惰学习方法（lazy learning，基本上不学习），一些积极学习的算法要快得多。
类别评分不是规格化的（不像概率评分）
输出的可解释性不强
样本不平衡时，如果一个类的样本容量很大，而其他类样本容量很小时，有可能导致输入一个新样本时，该样本的k个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，或者这类样本并不接近目标样本，又或者这类样本很接近目标样本。无论怎样，数量并不能影响运行结果。可以采用权值的方法（和该样本距离小的邻居权值大）来改进。
计算量大。目前常用的方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

100-Days-Of-ML系列Day 的相关文章

基于k近邻（KNN）的手写数字识别

作者 xff1a faaronzheng 转载请注明出处 xff01 最近再看Machine Learning in Action k近邻算法这一章节提供了不少例子 xff0c 本着Talk is cheap的原则 xff0c 我们用手写数
kNN(K-Nearest Neighbor)最邻近规则分类

K最近邻分类算法方法的思路 xff1a 如果一个样本在特征空间中的k个最相似 xff08 即特征空间中最邻近 xff09 的样本中的大多数属于这一类别 xff0c 则该样本也属于这个类别 KNN算法中 xff0c 所选择的邻居都是已经正确
【机器学习实战 Task1】（KNN）k近邻算法的应用

1 背景 1 1 k近邻算法的概述 xff08 1 xff09 k近邻算法的简介 k 近邻算法是属于一个非常有效且易于掌握的机器学习算法 xff0c 简单的说就是采用测量不同特征值之间距离的方法对数据进行分类的一个算法 xff08 2 xf
机器学习（二）--- KNN（K-Nearest Neighbors）

KNN K Nearest Neighbors 简单类比 xff08 Simple Analogy xff09 KNN xff1a 通过你周围的人来判断你是哪一类人 Tell me about your friends who your n
最简单的分类算法之一：KNN（原理解析+代码实现）

KNN K Nearest Neighbor 即K最邻近算法是数据挖掘分类技术中最简单的方法之一简单来说它是根据最邻近这一特征来对样本进行分类目录 1 大致了解KNN 2 原理分析 2 1一些数学知识 2 2算法思想 3 代码实
【python数据挖掘课程】二十.KNN最近邻分类算法分析详解及平衡秤TXT数据集读取

这是 Python数据挖掘课程系列文章也是我这学期上课的部分内容及书籍的一个案例本文主要讲述KNN最近邻分类算法简单实现分析平衡秤数据集希望这篇文章对大家有所帮助同时提供些思路内容包括 1 KNN算法基础原理知识 2 最近邻分
机器学习—有监督学习—KNN-K近邻法(k-NearestNeighbor)

一 KNN简介 KNN K Nearest Neighbor 最邻近分类算法是数据挖掘分类 classification 技术中最简单的算法之一其指导思想是近朱者赤近墨者黑即由你的邻居来推断出你的类别实现原理为了判断未知样本的类
基于Hadoop的Knn算法实现

Knn算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别则该样本也属于这个类别并具有这个类别上样本的特性该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别 Knn方法在类
【Python机器学习】KNN进行水果分类和分类器实战（附源码和数据集）

需要源码和数据集请点赞关注收藏后评论区留言私信 KNN算法简介 KNN K Nearest Neighbor 算法是机器学习算法中最基础最简单的算法之一它既能用于分类也能用于回归 KNN通过测量不同特征值之间的距离来进行分类 KNN算
K-近邻算法之鸢尾花实例使用Spark实现KNN的Demo

1 1 K 近邻算法 KNN 概念 K Nearest Neighbor算法又叫KNN算法这个算法是机器学习里面一个比较经典的算法总体来说KNN算法是相对比较容易理解的算法定义如果一个样本在特征空间中的k个最相似即特征空间中最邻近
增加 n_jobs 对 GridSearchCV 没有影响

我设置了简单的实验来检查运行 sklearn 时多核 CPU 的重要性GridSearchCV with KNeighborsClassifier 我得到的结果让我感到惊讶我想知道我是否误解了多核的好处或者也许我没有做得正确 2 8 个
k近邻算法中k的值

我有 7 个类需要分类我有 10 个特征在这种情况下我需要使用 k 的最佳值吗或者我是否必须针对 1 到 10 大约 10 之间的 k 值运行 KNN 并在算法本身的帮助下确定最佳值此外文章我在评论里发帖有this one这也表明
R 中的 Knn 回归

我正在研究 Knn 回归方法和后来的核平滑我希望使用 R 中的绘图来演示这些方法我使用以下代码生成了一个数据集 x runif 100 0 pi e rnorm 100 0 0 1 y sin x e 我一直在尝试遵循 9 2 中如何使
scikit-learn 的 KNN 如何计算概率估计？

scikit learn中KNN算法的实现是如何计算概率估计的predict proba X method 以下示例摘自 sklearn 文档但进行了一些修改以便您可以理解我们在这种情况下做什么有关更多详细信息请参见 https s
如何在r中绘制KNN簇边界

我正在使用 K 最近邻居的虹膜数据我已将物种类型替换为数据中的数值即 setosa 1 versicolor 2 virginica 3 现在我正在将数据放入训练和测试集中并在物种colmum的基础上训练这个模型 Clustering
使用 Python 从图像创建数据集以进行人脸识别

我正在尝试用 Python 编写一个人脸识别程序我将应用 k nn 算法进行分类首先我将图像转换为灰度然后使用图像的像素总共 128x128 16384 个特征创建一个长列向量通过使用 Opencv 的 imagedata 函
使用 KNN 分类器进行数字识别之前的预处理

现在我正在尝试使用 OpenCV 创建数字识别系统 WEB上有很多文章和例子甚至在堆栈溢出 https stackoverflow com questions 9413216 simple digit recognition ocr in
K 最近邻算法 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案使用 KNN 算法假设 k 5 现在我尝试通过获取 5 个最近的邻居来对未知对象进行分类如果确定 4 个最近邻居后接下来的 2 个
查找到另一组任意点的范围内的所有点

我有两组点A and B 我想找到所有点B是在一定范围内的r to A 其中一点b in B据说在范围内r to A如果至少有一个点a in A其欧几里得距离b等于或小于r 两组点中的每一个都是连贯的点集它们是根据两个不重叠对象的体素
在 R 中使用 k-NN 和分类值

我希望对主要具有分类特征的数据进行分类为此欧几里得距离或任何其他数值假设距离不适合我正在寻找 R 的 kNN 实现其中可以选择不同的距离方法例如汉明距离有没有一种方法可以使用常见的 kNN 实现例如具有不同距离度量函数的

随机推荐

ffmpeg命令行map参数的使用

介绍理解 map参数的最好办法就是想像一下怎么去告诉ffmpeg你要从源文件中选择拷贝哪个流到输出文件输出文件的stream顺序取决于在命令行中 map的参数顺序下面有一些例子默认默认操作没有指定map参数比如 ffmpeg
IR2104电机驱动

目录一 IR2104的引脚定义二 IR2104的内部原理三半桥驱动原理分析四全桥驱动原理分析五电感电流回流路径的建立六自举电容容值的计算与自举二极管选型七 mos管发热可能的问题八推荐阅读一 IR2104的引脚定
R语言中如何进行PCA分析？利用ggplot和prcomp绘制基因表达量分析图

学习笔记的主要内容是在R语言中利用ggplot2进行PCA分析和绘图包括简单分析与操作流程对比不同方式得到的结果差异提供脚本代码供练习 PCA分析的原理在处理基因差异表达数据时有时候需要分析其中因素的影响最大判断结果的关系这个
InstructGPT：彻底改变人工智能驱动的语言模型

目录什么是InstructGPT 人工智能驱动的语言模型的演变 InstructGPT 模型与 GPT 3 相比如何通过 OpenAI API 访问 InstructGPT 1 访问platform openai com并创建或登录您的
Linux中select poll和epoll的区别

原文地址 http www cnblogs com bigwangdi p 3182958 html 在Linux Socket服务器短编程时为了处理大量客户的连接请求需要使用非阻塞I O和复用 select poll和epoll是Li
Node.js Modules 模块

模块 https nodejs org docs v9 2 0 api modules html Node js has a simple module loading system In Node js files and modules
美国移动网络运营商：是时候关闭 3G 了

整理祝涛出品 CSDN ID CSDNnews 你的手机现在正使用什么样的网络服务呢是4G还是5G呢如果美国地区的用户依然停留在3G 他们可能需要在手机服务提供商关闭3G网络之前升级以避免失去服务美国联邦通信委员会 Federa
华为OD机试 -扑克牌大小（C++ & Java & JS & Python）

描述扑克牌游戏大家应该都比较熟悉了一副牌由54张组成含3 A 2各4张小王1张大王1张牌面从小到大用如下字符和字符串表示其中小写joker表示小王大写JOKER表示大王 3 4 5 6 7 8 9 10 J Q K A 2
联想Y9000X Opencore引导黑苹果Catalina10.15.6安装教程

Y9000X 2020黑苹果安装教程非商业用途仅用于自己记录学习研究 Y9000X Opencore 安装双硬盘双系统教程电脑配置前期准备安装流程 1 写入U盘镜像 2 更换EFI文件 3 磁盘分区 4 系统安装 5 将U盘中的E
[c++]opencv 鼠标响应函数传入外部参数(图像)问题

参考博客 https blog csdn net my lord article details 53927865 https blog csdn net aiyueyueaoe article details 118192972 http
C语言开发MicroPython模块（添加module）

MicroPython添加模块框架模式相对简单只需要按照定义好的固定框架就可以添加模块 module 一向固件里面添加module 1 1 编写mymodule c文件在ports esp32文件夹下新建一个文件mymodule c
域/AD域

域定义域模型是针对大型网络的管理需求设计的域就是共享用户账号计算机账号和安全策略的计算机集合组成域网络的组成一般情况下有三种计算机域控制器上存储着Active Directoy 成员服务器负责提供邮件数据库 DHCP
Flink学习22：窗口的划分

1 简介主要有2种窗口一个基于时间窗口一个是基于数量窗口时间窗口中起止时间是左闭右开 2 时间概念 2 1 事件生成时间 EventTime 指的是数据在设备上产生的时间这种模式下不管数据何时到达或者顺序如何都能得到一致的结
从设备树(dtb格式数据)中解析出bootargs

1 函数调用关系 start kernel setup arch setup machine fdt early init dt scan nodes 遍历设备树的节点解析出重要的信息用于内核启动 of scan flat dt 解析设备
四、STL容器：map

4 map 4 1 简介 map是key value构成的集合 4 2 操作 map是键值对
VUE工程的keep-alive缓存机制（全部缓存、部分缓存、定向缓存）

目录应用场景解决思路一缓存所有页面二缓存部分页面三页面缓存了有的功能需要再进入后仍然重新执行的怎么办四执行前进刷新后退时候缓存五页面B进入页面A需要缓存页面C进入页面A不需要缓存应用场景 1 vue工程很
如何用r压缩列联表_如何用R的基础绘图系统作图？

R的基础绘图系统由Ross Ihaka编写功能非常强大主要由graphics包和grDevices包组成它们在启动R时会自动加载基础绘图系统中有两类函数一类是高水平作图函数另一类是低水平作图函数所谓高水平作图函数是用于直接产生
react使用代理(跨域问题)

在src文件夹下建文件setupProxy js const proxy require http proxy middleware module exports function app app use proxy api target
蚂蚁金服新一代数据可视化引擎 G2

新公司已经呆了一个多月目前着手一个数据可视化的项目数据可视化肯定要用到图形库如D3 Highcharts ECharts Chart等经决定我的这个项目用阿里旗下蚂蚁金服所开发的G2图表库官方地址 https antv alipay
100-Days-Of-ML系列Day

今天继续学习机器学习算法 KNN KNN是通过测量不同特征值之间的距离进行分类的一种算法它的思路是如果一个样本在特征空间的k个最相似即特征空间中最近邻的样本大多数属于某一个类别则该样本也属于这个类别其中k通常是不大于20的整数

100-Days-Of-ML系列Day

100-Days-Of-ML系列Day 的相关文章

随机推荐

热门标签