最简单的分类算法之一:KNN(原理解析+代码实现)

2023-10-26

  KNN(K- Nearest Neighbor),即K最邻近算法,是数据挖掘分类技术中最简单的方法之一。简单来说,它是根据“最邻近”这一特征来对样本进行分类。

1、大致了解KNN

  一提到KNN,很多人都想起了另外一个比较经典的聚类算法K_means,但其实,二者之间是有很多不同的,这两种算法之间的根本区别是,K_means本质上是无监督学习而KNN是监督学习,Kmeans是聚类算法而KNN是分类(或回归)算法。有关K_means的具体思想以及实现可以简单参考:机器学习之K_means(附简单手写代码)

  古语说得好,物以类聚,人以群分;近朱者赤,近墨者黑。这两句话的大概意思就是,你周围大部分朋友是什么人,那么你大概率也就是这种人,这句话其实也就是KNN算法的核心思想。

2、原理分析

  既然是近朱者赤,近墨者黑,想要衡量二者的差距,我们首先想到的是他们走得近不近,他们之间的距离大概为多少。因此,距离无论是在聚类还是分类中,都具有比较重要的意义, 这里也就拓展讲一下。
  在以下数学公式当中,我们认定训练集为: [ ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , . . . , ( x n , y n ) ] [(x_{1},y_{1}),(x_{2},y_{2}),(x_{3},y_{3}),...,(x_{n},y_{n})] [(x1,y1),(x2,y2),(x3,y3),...,(xn,yn)],其中每一个 x i x_{i} xi都具有n个特征即: x i = ( x i 1 , x i 2 , x i 3 , . . . , x i n ) x_{i}=(x_{i}^{1},x_{i}^{2},x_{i}^{3},...,x_{i}^{n}) xi=(xi1,xi2,xi3,...,xin) y i y_{i} yi是类别标签。(这里两个n纯属巧合,应该能理解)

2.1一些数学知识

(1)欧几里得距离(Euclidean Distance)
欧几里得距离是运用最广的一种计算距离的方式,我们从小在课本上接触到的也是这个东西,它衡量的是多维空间中两点之间的绝对距离,表达式如下:
在这里插入图片描述
很好理解,就不做过多解释。

(2)明可夫斯基距离(Minkowski Distance)
明可夫斯基距离是一种对多种距离的概括性描述,其表达式如下:
在这里插入图片描述
为什么说是一种概括性描述,因为当p=2时,明氏距离其实就是欧氏距离。

(3)曼哈顿距离(Manhattan distance)
当p=1时,得到绝对值距离,也称曼哈顿距离,表达式如下:

在这里插入图片描述
(4)切比雪夫距离(Chebyshev Distance)
当p->∞时,得到切比雪夫距离。表达式如下:
在这里插入图片描述

(5)马氏距离(Mahalanobis distance)
马氏距离表示点与一个分布之间的距离。 它是一种有效的计算两个未知样本集的相似度的方法。一个均值为μ,协方差矩阵为Σ的多变量向量,它的马氏距离为:
在这里插入图片描述
其中-1表示取逆矩阵,斜上方一点表示取转置,其实这个公式有点似曾相识,我们在概率生成模型中推导多维正态分布的极大似然估计时经常看到这个表达式,具体可参考:概率生成模型与朴素贝叶斯

2.2算法思想

  总得来说,KNN算法思想可以用一句话概括:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近,用上面的距离公式描述)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
  算法步骤可以大致分为如下几个步骤:

  1. 计算想要分类的点到其余点的距离
  2. 按距离升序排列,并选出前K(KNN的K)个点,也就是距离样本点最近的K个点
  3. 加权平均,得到答案

  这里大致解释一下三个步骤,比如我要预测x是属于哪一类,训练集里面有很多数据,我先算出x到其他所有点之间的距离,取前K个距离样本比较小的点,然后我们发现这K个点当中有5个属于class 1,K-5个属于class 2 。那我们就直接比较5与K-5的大小然后判断x属于哪一类吗?这显然是是不合理的。
  这里毫无意外也需要体现加权的思想。如果那五个属于class 1的点相比于另外K-5个属于class 2的点,它们距离样本点更近,根据近朱者赤,近墨者黑的原则,毫无疑问样本点x属于class 1的可能性更大,也即是说,这五个点在最终决策当中应当占据更大的比重。
  那么怎么来体现这种加权呢?我们很容易想到距离占总距离的比重,但是这样的话距离大的反而权重较大,因此我们需要用1来减去该权重,得到最终的权重。我们把K个点当中属于class 1的权重加起来,再把属于class 2的权重加起来,谁的结果大,x就属于哪一类。

3.代码实现

  数据集链接:提取码:n4lg
  数据集长这样:(截取了一部分)
在这里插入图片描述
源码:

import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import MinMaxScaler


def knn():
    K = 5
    data = pd.read_csv('data/Prostate_Cancer.csv')
    # 70%训练30%测试
    train_set = data[:int(len(data) * 0.7)].values
    test_set = data[int(len(data) * 0.7):].values
    train_x = train_set[:, 2:10]
    train_y = train_set[:, 1]
    test_x = test_set[:, 2:10]
    test_y = test_set[:, 1]
    # 归一化
    scaler = MinMaxScaler()
    train_x = scaler.fit_transform(train_x)
    test_x = scaler.transform(test_x)
    model = KNeighborsClassifier(n_neighbors=K)
    model.fit(train_x, train_y)
    score = model.score(test_x, test_y)
    print("准确率为:", score)


if __name__ == '__main__':
    knn()
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

最简单的分类算法之一:KNN(原理解析+代码实现) 的相关文章

随机推荐

  • Linux--文件、进程、fork、open、系统调用、库函数相关知识

    目录 1 进程打开文件的流程 2 先打开再fork的流程 重点 1 代码演示 2 分析 3 先fork再open 1 代码演示 2 分析 4 fork补充 5 系统调用与库函数的区别 1 进程打开文件的流程 inode 节点 存放有关文件的
  • Vlc.DotNet 视频画面拉伸满整个控件的方法

    Vlc DotNet 视频画面拉伸满整个控件的方法 引用Vlc DotNet 实现代码 实现思路 方案对比 踩坑记录 引用Vlc DotNet 根据官方的例子 首先下载VLC 把VLC里面的各种dll拷贝到输出目录里面 然后安装Nuget包
  • 如何使用python中读取csv数据文件?读取csv文件的几种方法

    1 第一种方法 使用csv库 打开csv文件 然后逐行读取文件内容 import csv filename abc csv with open filename as f reader csv reader f header row nex
  • 常用命令

    激活虚拟环境 source bin activate source bashrc source activate py36 source env torch bin activate 查看GPU使用情况 nvidia smi MAC从服务器
  • 【3.2】Hadoop运行模式之(伪分布式运行模式)

    一 启动HDFS并运行MapReduce程序 配置集群 1 配置 hadoop env sh 2 配置 core site xml 3 配置 hdfs site xml 启动集群 1 格式化 NameNode 第一次启动时格式化 以后就不要
  • 希望余生尽早开始

    我爱你在暖和的天气感冒 我爱你用一小时来点菜 我爱你皱着眉头看我 好像我是疯子一样 我爱跟你分别后 仍然萦绕不散的余香 我想在睡前和你聊天 我来这并不是因为我寂寞 也不是因为今天是除夕 是因为发现 如果你想要与某人共度余生 那你就会希望余生
  • Apache中的挂钩剖析(3)

    5 5 7 可选挂钩 与标准挂钩相比 可选挂钩基本上没有太大的差异 唯一的区别就在于可选挂钩不一定需要被实现 这看起来令人迷惑的 不过你很快就会明白了 考虑一下 如果某个挂钩Hook A是声明在一个可选模块中 那么正常情况下该模块没有被加载
  • 单片机程序跑飞原因

    参考 单片机程序又跑飞 作者 嵌入式ARM 网址 https mp weixin qq com s a22zVdSfCqWjSmlBxK2R1Q 目录 数组越界 溢出 中断服务程序缺失 看门狗复位 单片机中有看门狗 长时间不喂狗 程序就会复
  • 从零开始使用docker部署Go Web App

    docker的基本使用 如何在ubuntu 16 04上安装docker 以及docker的基本使用可以参考我的上一篇博客 服务计算之玩转 Docker dockerfile的编写 要在docker上部署应用一定绕不开编写dockerfil
  • 三种循环详解和练习

    循环讲解和练习 1 1 for循环语句基本格式 for 语句1 表达式 语句2 语句块 大多数问题我们都可以通过for的嵌套进行了解 for 语句1 表达式 语句2 for 语句1 表达式 语句2 语句块 for int i 0 i lt
  • Android常见的adb命令

    查看当前的device adb devices 如果有多个devices adb s 设备号 其他指令 查看顶部Activity windows环境下 adb shell dumpsys activity findstr mFocusedA
  • linux安装docker 教程

    1 卸载之前安装的docker sudo 以管理员身份运行 sudo yum remove docker docker client docker client latest docker common docker latest dock
  • 学习机器学习选择python,还是spark,Scala?

    这种问法是初接触者的困惑 尤其是现在铺天盖地的python机器学习课程 会让人以为python就是工作中主流了 那spark是干什么呢 Scala这个名字好像也听过 以下摘自一段相对好理解的回答 spark是用在大数据场景中的 python
  • Premiere Pro CC2018安装资料及安装教程

    简介 Adobe Premiere是一款常用的视频编辑软件 由Adobe公司推出 现在常用的版本有CS4 CS5 CS6 CC 2014 CC 2015 CC 2017 CC 2018以及CC 2019版本 Adobe Premiere是一
  • 论文写作 12: 算法伪代码 (含实例)

    算法伪代码是论文的核心之一 需要说明输入 输出 方法 函数 名可写可不写 如果被别的方法调用就必须写 需要写出主要步骤的注释 长度控制在 15 30 行 可使用数学式子或对已有数学式子的引用 不重要的步骤可以省略 一般需要进行时间 空间复杂
  • 详解Nginx proxy_pass 使用

    前言 日常不管是研发还是运维 都多少会使用Nginx服务 很多情况Nginx用于反向代理 那就离不开使用proxy pass 有些同学会对 proxy pass 转发代理时 后面url加 后面url没有 后面url添加其它路由等场景 不能很
  • en结尾的单词_知识丨英语单词中最常见的328个前缀后缀,高效背单词必备!

    北京高考资讯 争取给你更好的 更新鲜的高考资讯 记忆单词最好的两个办法就是 结合语境和运用构词法 构词法包括派生 即我们平时说的前后缀 合成和转化 而派生在构词法中是最重要的 今天老师带大家来看一下高中阶段涉及到的328个前后缀都有哪些 记
  • 这19款最好用的免费安全工具,使用不当或许面临牢狱之灾。

    前言 大家好 我是周杰伦 工具本身没有好坏 但如果能充分利用好的工具 往往能达到意想不到的效果 安全行业尤其如此 这期推荐的是一些免费而且很优秀的安全软件工具 无论是渗透测试 开源情报 还是漏洞评估 都能让安全人的日常工作更轻松 将近 20
  • 软件测试面试题—选择题2

    选择题 1 验收测试的测试用例主要根据 的结果来设计 A 需求分析 B 源程序 C 概要设计 D 详细设计 答案 A 2 以下不属于应用系统中的缺陷类型的是 A 不恰当的需求解释 B 用户指定的错误需求 C 设计人员的习惯不好 D 不正确的
  • 最简单的分类算法之一:KNN(原理解析+代码实现)

    KNN K Nearest Neighbor 即K最邻近算法 是数据挖掘分类技术中最简单的方法之一 简单来说 它是根据 最邻近 这一特征来对样本进行分类 目录 1 大致了解KNN 2 原理分析 2 1一些数学知识 2 2算法思想 3 代码实