100-Days-Of-ML系列Day

2023-11-10

今天继续学习机器学习算法——KNN。
KNN是通过测量不同特征值之间的距离进行分类的一种算法。它的思路是:如果一个样本在特征空间的k个最相似(即特征空间中最近邻)的样本大多数属于某一个类别,则该样本也属于这个类别,其中k通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别决定待分样本所属的类别。
下面通过一个简单的例子说明一下:如下图,要确定绿色圆属于哪个类别。假设k取3,则绿色圆的最近样本为实线圆圈,其中红色三角形占2/3,蓝色四方形占1/3,则认为绿色圆属于红色三角形的类别。当k取5时,绿色圆的最近样本为虚线圆圈,其中红色三角形占2/5,蓝色四方形占3/5,则认为绿色圆属于蓝色四方形的类别。
在这里插入图片描述
总结一下,KNN算法的具体步骤如下:

  1. 计算距离:给定分类对象,计算它与训练集中每个样本的距离
  2. 找最近邻:找出与分类对象最近的k个训练样本,作为分类对象的最近邻
  3. 确定类别:根据这k个最近邻的主要类别作为分类对象的类别

从上面的步骤我们可以看到,计算距离是KNN算法中的核心模块,下面介绍几种常用的距离计算方法:

  1. 欧式距离 d i s t ( X , Y ) = ∑ i = 1 n ( x i − y i ) 2 dist\left( {X,Y} \right) = \sqrt {\sum\limits_{i = 1}^n {{{\left( {{x_i} - {y_i}} \right)}^2}} } dist(X,Y)=i=1n(xiyi)2
    欧式距离是最常见的距离度量,衡量多维空间中各个点之间的绝对距离。
    因为计算是基于各维度特征的绝对数值,所以欧式距离需要保证各指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。

  2. 曼哈顿距离 d i s t ( X , Y ) = ∑ i = 1 n ∣ x i − y i ∣ dist\left( {X,Y} \right) = \sum\limits_{i = 1}^n {\left| {{x_i} - {y_i}} \right|} dist(X,Y)=i=1nxiyi
    曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果

  3. 切比雪夫距离 d i s t ( X , Y ) = lim ⁡ p → ∞ ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 / p = max ⁡ ∣ x i − y i ∣ dist\left( {X,Y} \right) = \mathop {\lim }\limits_{p \to \infty } {\left( {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^p}} } \right)^{1/p}} = \max \left| {{x_i} - {y_i}} \right| dist(X,Y)=plim(i=1nxiyip)1/p=maxxiyi

  4. 明可夫斯基距离 d i s t ( X , Y ) = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 / p dist\left( {X,Y} \right) = {\left( {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^p}} } \right)^{1/p}} dist(X,Y)=(i=1nxiyip)1/p
    上面的欧式距离、曼哈顿距离和切比雪夫距离都是明可夫斯基距离在特殊条件下的应用。

  5. 马哈拉诺比斯距离
    既然欧式距离无法忽略指标度量的差异,所以使用欧式距离之前需要对底层指标进行数据的标准化,而基于各指标维度进行标准化后再使用欧式距离就衍生出另外的一个距离度量——马哈拉诺比斯距离(Mahalanobis Distance),简称马氏距离。

下面总结一下KNN算法的优缺点:
优点

  1. 简单、有效。
  2. 重新训练的代价较低
  3. 计算时间和空间线性于训练集的规模
  4. 由于KNN方法主要靠周围有限的近邻样本,而不是靠判别类域的方法来确定所属类别,因此对于类域交叉或重叠较多的待分样本集来说,KNN方法较其他方法更合适。
  5. 该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

缺点:

  1. KNN算法是懒惰学习方法(lazy learning,基本上不学习),一些积极学习的算法要快得多。
  2. 类别评分不是规格化的(不像概率评分)
  3. 输出的可解释性不强
  4. 样本不平衡时,如果一个类的样本容量很大,而其他类样本容量很小时,有可能导致输入一个新样本时,该样本的k个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本,某一类的样本数量很大,或者这类样本并不接近目标样本,又或者这类样本很接近目标样本。无论怎样,数量并不能影响运行结果。可以采用权值的方法(和该样本距离小的邻居权值大)来改进。
  5. 计算量大。目前常用的方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。
    在这里插入图片描述
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

100-Days-Of-ML系列Day 的相关文章

  • 基于k近邻(KNN)的手写数字识别

    作者 xff1a faaronzheng 转载请注明出处 xff01 最近再看Machine Learning in Action k近邻算法这一章节提供了不少例子 xff0c 本着Talk is cheap的原则 xff0c 我们用手写数
  • kNN(K-Nearest Neighbor)最邻近规则分类

    K最近邻分类算法 方法的思路 xff1a 如果一个样本在特征空间中的k个最相似 xff08 即特征空间中最邻近 xff09 的样本中的大多数属于这一类别 xff0c 则该样本也属于这个类别 KNN算法中 xff0c 所选择的邻居都是已经正确
  • 【机器学习实战 Task1】 (KNN)k近邻算法的应用

    1 背景 1 1 k近邻算法的概述 xff08 1 xff09 k近邻算法的简介 k 近邻算法是属于一个非常有效且易于掌握的机器学习算法 xff0c 简单的说就是采用测量不同特征值之间距离的方法对数据进行分类的一个算法 xff08 2 xf
  • 机器学习(二)--- KNN(K-Nearest Neighbors)

    KNN K Nearest Neighbors 简单类比 xff08 Simple Analogy xff09 KNN xff1a 通过你周围的人来判断你是哪一类人 Tell me about your friends who your n
  • 最简单的分类算法之一:KNN(原理解析+代码实现)

    KNN K Nearest Neighbor 即K最邻近算法 是数据挖掘分类技术中最简单的方法之一 简单来说 它是根据 最邻近 这一特征来对样本进行分类 目录 1 大致了解KNN 2 原理分析 2 1一些数学知识 2 2算法思想 3 代码实
  • 【python数据挖掘课程】二十.KNN最近邻分类算法分析详解及平衡秤TXT数据集读取

    这是 Python数据挖掘课程 系列文章 也是我这学期上课的部分内容及书籍的一个案例 本文主要讲述KNN最近邻分类算法 简单实现分析平衡秤数据集 希望这篇文章对大家有所帮助 同时提供些思路 内容包括 1 KNN算法基础原理知识 2 最近邻分
  • 机器学习—有监督学习—KNN-K近邻法(k-NearestNeighbor)

    一 KNN简介 KNN K Nearest Neighbor 最邻近分类算法是数据挖掘分类 classification 技术中最简单的算法之一 其指导思想是 近朱者赤 近墨者黑 即由你的邻居来推断出你的类别 实现原理 为了判断未知样本的类
  • 基于Hadoop的Knn算法实现

    Knn算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别 则该样本也属于这个类别 并具有这个类别上样本的特性 该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别 Knn方法在类
  • 【Python机器学习】KNN进行水果分类和分类器实战(附源码和数据集)

    需要源码和数据集请点赞关注收藏后评论区留言私信 KNN算法简介 KNN K Nearest Neighbor 算法是机器学习算法中最基础 最简单的算法之一 它既能用于分类 也能用于回归 KNN通过测量不同特征值之间的距离来进行分类 KNN算
  • K-近邻算法之鸢尾花实例 使用Spark实现KNN的Demo

    1 1 K 近邻算法 KNN 概念 K Nearest Neighbor算法又叫KNN算法 这个算法是机器学习里面一个比较经典的算法 总体来说KNN算法是相对比较容易理解的算法 定义 如果一个样本在特征空间中的k个最相似 即特征空间中最邻近
  • 增加 n_jobs 对 GridSearchCV 没有影响

    我设置了简单的实验来检查运行 sklearn 时多核 CPU 的重要性GridSearchCV with KNeighborsClassifier 我得到的结果让我感到惊讶 我想知道我是否误解了多核的好处 或者也许我没有做得正确 2 8 个
  • k近邻算法中k的值

    我有 7 个类需要分类 我有 10 个特征 在这种情况下 我需要使用 k 的最佳值吗 或者我是否必须针对 1 到 10 大约 10 之间的 k 值运行 KNN 并在算法本身的帮助下确定最佳值 此外文章我在评论里发帖有this one这也表明
  • R 中的 Knn 回归

    我正在研究 Knn 回归方法和后来的核平滑 我希望使用 R 中的绘图来演示这些方法 我使用以下代码生成了一个数据集 x runif 100 0 pi e rnorm 100 0 0 1 y sin x e 我一直在尝试遵循 9 2 中如何使
  • scikit-learn 的 KNN 如何计算概率估计?

    scikit learn中KNN算法的实现是如何计算概率估计的predict proba X method 以下示例摘自 sklearn 文档 但进行了一些修改 以便您可以理解我们在这种情况下做什么 有关更多详细信息 请参见 https s
  • 如何在r中绘制KNN簇边界

    我正在使用 K 最近邻居的虹膜数据 我已将物种类型替换为数据中的数值 即 setosa 1 versicolor 2 virginica 3 现在我正在将数据放入训练和测试集中 并在物种colmum的基础上训练这个模型 Clustering
  • 使用 Python 从图像创建数据集以进行人脸识别

    我正在尝试用 Python 编写一个人脸识别程序 我将应用 k nn 算法进行分类 首先 我将图像转换为灰度 然后使用图像的像素 总共 128x128 16384 个特征 创建一个长列向量 通过使用 Opencv 的 imagedata 函
  • 使用 KNN 分类器进行数字识别之前的预处理

    现在我正在尝试使用 OpenCV 创建数字识别系统 WEB上有很多文章和例子 甚至在堆栈溢出 https stackoverflow com questions 9413216 simple digit recognition ocr in
  • K 最近邻算法 [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 使用 KNN 算法 假设 k 5 现在我尝试通过获取 5 个最近的邻居来对未知对象进行分类 如果确定 4 个最近邻居后 接下来的 2 个
  • 查找到另一组任意点的范围内的所有点

    我有两组点A and B 我想找到所有点B是在一定范围内的r to A 其中一点b in B据说在范围内r to A如果至少有一个点a in A其 欧几里得 距离b等于或小于r 两组点中的每一个都是连贯的点集 它们是根据两个不重叠对象的体素
  • 在 R 中使用 k-NN 和分类值

    我希望对主要具有分类特征的数据进行分类 为此 欧几里得距离 或任何其他数值假设距离 不适合 我正在寻找 R 的 kNN 实现 其中可以选择不同的距离方法 例如汉明距离 有没有一种方法可以使用常见的 kNN 实现 例如具有不同距离度量函数的

随机推荐

  • ffmpeg命令行map参数的使用

    介绍 理解 map参数的最好办法就是想像一下怎么去告诉ffmpeg你要从源文件中选择 拷贝哪个流到输出文件 输出文件的stream顺序取决于在命令行中 map的参数顺序 下面有一些例子 默认 默认操作 没有指定map参数 比如 ffmpeg
  • IR2104电机驱动

    目录 一 IR2104的引脚定义 二 IR2104的内部原理 三 半桥驱动原理分析 四 全桥驱动原理分析 五 电感电流回流路径的建立 六 自举电容容值的计算与自举二极管选型 七 mos管发热可能的问题 八 推荐阅读 一 IR2104的引脚定
  • R语言中如何进行PCA分析?利用ggplot和prcomp绘制基因表达量分析图

    学习笔记的主要内容是在R语言中利用ggplot2进行PCA分析和绘图 包括简单分析与操作流程 对比不同方式得到的结果差异 提供脚本代码供练习 PCA分析的原理 在处理基因差异表达数据时 有时候需要分析其中因素的影响最大 判断结果的关系 这个
  • InstructGPT:彻底改变人工智能驱动的语言模型

    目录 什么是InstructGPT 人工智能驱动的语言模型的演变 InstructGPT 模型与 GPT 3 相比如何 通过 OpenAI API 访问 InstructGPT 1 访问platform openai com并创建或登录您的
  • Linux中select poll和epoll的区别

    原文地址 http www cnblogs com bigwangdi p 3182958 html 在Linux Socket服务器短编程时 为了处理大量客户的连接请求 需要使用非阻塞I O和复用 select poll和epoll是Li
  • Node.js Modules 模块

    模块 https nodejs org docs v9 2 0 api modules html Node js has a simple module loading system In Node js files and modules
  • 美国移动网络运营商:是时候关闭 3G 了

    整理 祝涛 出品 CSDN ID CSDNnews 你的手机现在正使用什么样的网络服务呢 是4G还是5G呢 如果美国地区的用户依然停留在3G 他们可能需要在手机服务提供商关闭3G网络之前升级 以避免失去服务 美国联邦通信委员会 Federa
  • 华为OD机试 -扑克牌大小(C++ & Java & JS & Python)

    描述 扑克牌游戏大家应该都比较熟悉了 一副牌由54张组成 含3 A 2各4张 小王1张 大王1张 牌面从小到大用如下字符和字符串表示 其中 小写joker表示小王 大写JOKER表示大王 3 4 5 6 7 8 9 10 J Q K A 2
  • 联想Y9000X Opencore引导黑苹果Catalina10.15.6安装教程

    Y9000X 2020黑苹果安装教程 非商业用途 仅用于自己记录学习研究 Y9000X Opencore 安装双硬盘双系统教程 电脑配置 前期准备 安装流程 1 写入U盘镜像 2 更换EFI文件 3 磁盘分区 4 系统安装 5 将U盘中的E
  • [c++]opencv 鼠标响应函数传入外部参数(图像)问题

    参考博客 https blog csdn net my lord article details 53927865 https blog csdn net aiyueyueaoe article details 118192972 http
  • C语言开发MicroPython模块(添加module)

    MicroPython添加模块框架模式相对简单 只需要按照定义好的固定框架就可以添加模块 module 一 向固件里面添加module 1 1 编写mymodule c文件 在ports esp32文件夹下新建一个文件mymodule c
  • 域/AD域

    域 定义 域模型是针对大型网络的管理需求设计的 域就是共享用户账号 计算机账号和安全策略的计算机集合 组成 域网络的组成 一般情况下 有三种计算机 域控制器 上存储着Active Directoy 成员服务器 负责提供邮件 数据库 DHCP
  • Flink学习22:窗口的划分

    1 简介 主要有2种窗口 一个基于时间窗口 一个是基于数量窗口 时间窗口中起止时间是 左闭右开 2 时间概念 2 1 事件生成时间 EventTime 指的是数据在设备上产生的时间 这种模式下 不管数据何时到达或者顺序如何 都能得到一致的结
  • 从设备树(dtb格式数据)中解析出bootargs

    1 函数调用关系 start kernel setup arch setup machine fdt early init dt scan nodes 遍历设备树的节点 解析出重要的信息用于内核启动 of scan flat dt 解析设备
  • 四、STL容器:map

    4 map 4 1 简介 map是key value构成的集合 4 2 操作 map是键值对
  • VUE工程的keep-alive缓存机制(全部缓存、部分缓存、定向缓存)

    目录 应用场景 解决思路 一 缓存所有页面 二 缓存部分页面 三 页面缓存了 有的功能需要再进入后 仍然重新执行的怎么办 四 执行前进刷新 后退时候缓存 五 页面B进入页面A需要缓存 页面C进入页面A不需要缓存 应用场景 1 vue工程 很
  • 如何用r压缩列联表_如何用R的基础绘图系统作图?

    R的基础绘图系统由Ross Ihaka编写 功能非常强大 主要由graphics包和grDevices包组成 它们在启动R时会自动加载 基础绘图系统中有两类函数 一类是高水平作图函数 另一类是低水平作图函数 所谓高水平作图函数是用于直接产生
  • react使用代理(跨域问题)

    在src文件夹下建文件setupProxy js const proxy require http proxy middleware module exports function app app use proxy api target
  • 蚂蚁金服新一代数据可视化引擎 G2

    新公司已经呆了一个多月 目前着手一个数据可视化的项目 数据可视化肯定要用到图形库如D3 Highcharts ECharts Chart等 经决定我的这个项目用阿里旗下蚂蚁金服所开发的G2图表库 官方地址 https antv alipay
  • 100-Days-Of-ML系列Day

    今天继续学习机器学习算法 KNN KNN是通过测量不同特征值之间的距离进行分类的一种算法 它的思路是 如果一个样本在特征空间的k个最相似 即特征空间中最近邻 的样本大多数属于某一个类别 则该样本也属于这个类别 其中k通常是不大于20的整数