机器学习(三):感知器算法实现鸢尾花分类项目实战

2023-11-03

上一章我们已经介绍了感知器算法规则,并且用python语言实现了。现在我们应用感知器学习规则进行鸢尾花分类实验。

测试数据我们从鸢尾花数据集中挑选出了山鸢尾(Setosa)和变色鸢尾(Versicolor)两种花的信息作为测试数据。虽然感知器并不将数据样本特征的数量限定为两个,但出于可视化的原因,我们只考虑数据集中萼片长度(sepal length)和花瓣长度(petal length)这两个特征。同时,选择山鸢尾和变色鸢尾也是出于实践需要的考虑。不过,感知器算法可以扩展到多类别的分类器应用中,比如通过一对多技术。

注:一对多技术也称为一对其他技术,是一种将二分类技术扩充到多类别分类任务上的一种技术。
我们可以使用QvA针对每个类别训练一个分类器,其中分类器所对应类别样本为正类别,其他所有分类器的样本为负类别。当应用与新数据样本识别时,我们可以借助于分类器 ϕ(z) ϕ ( z ) ,其中m为类标数量,并将相关度最高的类标赋给待识别样本。对于感知器来说,就是最大净输入值绝对值对应的类标。

1、加载训练数据

使用pandas库直接从UCI机器学习库中将鸢尾花数据集转换为DataFrame对象并加载到内存中,并使用
tail方法现实部分数据信息

import pandas as pd

df = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data", header=None)
# 输出最后20行的数据,并观察数据结构 萼片长度(sepal length),萼片宽度(),
# 花瓣长度(petal length),花瓣宽度,种类
print(df.tail(n=20))
print(df.shape)

2、绘制训练数据

我们从鸢尾花数据集中提取前100个类标,其中分别包含50个山鸢尾类标和50个变色鸢尾类标,
并将这些类标用两个整数值来替代:1代表变色鸢尾,-1代表山鸢尾,同时把pandas DataFrame产生的对应的整数类标赋值给Numpy的向量y。
类似的,我们提取这100个训练样本的第一个特征列(萼片长度)和第三个特征列(花瓣长度),并赋值给属性矩阵X,这样我们就可以用二维散点图对这些数据进行可视化了。

# 0到100行,第5列
y = df.iloc[0:100, 4].values
# 将target值转数字化 Iris-setosa为-1,否则值为1
y = np.where(y == "Iris-setosa", -1, 1)
# 取出0到100行,第1,第三列的值
x = df.iloc[0:100, [0, 2]].values

""" 鸢尾花散点图 """

# scatter绘制点图
plt.scatter(x[0:50, 0], x[0:50, 1], color="red", marker="o", label="setosa")
plt.scatter(x[50:100, 0], x[50:100, 1], color="blue", marker="x", label="versicolor")
# 防止中文乱码 下面分别是windows系统,mac系统解决中文乱码方案
# zhfont1 = mat.font_manager.FontProperties(fname='C:\Windows\Fonts\simsun.ttc')
zhfont1 = mat.font_manager.FontProperties(fname='/System/Library/Fonts/PingFang.ttc')
plt.title("鸢尾花散点图", fontproperties=zhfont1)
plt.xlabel(u"花瓣长度", fontproperties=zhfont1)
plt.ylabel(u"萼片长度", fontproperties=zhfont1)
plt.legend(loc="upper left")
plt.show()

这里写图片描述

3、训练数据

现在我们可以利用抽取出的鸢尾花数据子集来训练感知器了。同时,我们还将绘制每次迭代的错误分类数量的折线图,以检验算法是否收敛并找到可以分开两种类型鸢尾花的决策边界。

训练代码:

from perceptron import Perceptron

import matplotlib.pyplot as plt
import matplotlib as mat
import pandas as pd
import numpy as np
"""
    训练模型并且记录错误次数,观察错误次数的变化
"""
print(__doc__)
# 加载鸢尾花数据
df = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data", header=None)

# 数据真实值
y = df.iloc[0:100, 4].values
y = np.where(y == "Iris-setosa", -1, 1)
x = df.iloc[0:100, [0, 2]].values
"""
    误差数折线图 
    @:param eta: 0.1 学习速率
    @:param n_iter:0.1 迭代次数
"""
ppn = Perceptron(eta=0.1, n_iter=10)
ppn.fit(x, y)
# plot绘制折线图
plt.plot(range(1, len(ppn.errors_) + 1), ppn.errors_, marker="o")
# 防止中文乱码
zhfont1 = mat.font_manager.FontProperties(fname='C:\Windows\Fonts\simsun.ttc')
plt.xlabel("迭代次数(n_iter)", fontproperties=zhfont1)
plt.ylabel("错误分类次数(error_number)", fontproperties=zhfont1)
plt.show()

这里写图片描述

上面的代码绘制了每轮迭代的错误次数,从图可以看出,在第6轮迭代之后的出错次数已经降为0(收敛),并且具备了对训练样本及进行正确分类的能力。

4、决策边界可视化

以下代码是对鸢尾花花萼长度、花瓣长度进行可视化及分类

import perceptron as pp
import pandas as pd
import matplotlib as mat

from matplotlib.colors import ListedColormap
import numpy as np
import matplotlib.pyplot as plt

def plot_decision_regions(x, y, classifier, resolution=0.2):
    """
    二维数据集决策边界可视化
    :parameter
    -----------------------------
    :param self: 将鸢尾花花萼长度、花瓣长度进行可视化及分类
    :param x: list 被分类的样本
    :param y: list 样本对应的真实分类
    :param classifier: method  分类器:感知器
    :param resolution:
    :return:
    -----------------------------
    """
    markers = ('s', 'x', 'o', '^', 'v')
    colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
    # y去重之后的种类
    listedColormap = ListedColormap(colors[:len(np.unique(y))])

    # 花萼长度最小值-1,最大值+1
    x1_min, x1_max = x[:, 0].min() - 1, x[:, 0].max() + 1
    # 花瓣长度最小值-1,最大值+1
    x2_min, x2_max = x[:, 1].min() - 1, x[:, 1].max() + 1

    # 将最大值,最小值向量生成二维数组xx1,xx2
    # np.arange(x1_min, x1_max, resolution)  最小值最大值中间,步长为resolution
    new_x1 = np.arange(x1_min, x1_max, resolution)
    new_x2 = np.arange(x2_min, x2_max, resolution)
    xx1, xx2 = np.meshgrid(new_x1, new_x2)

    # 预测值
    # z = classifier.predict([xx1, xx2])
    z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    z = z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, z, alpha=0.4, camp=listedColormap)
    plt.xlim(xx1.min(), xx1.max())
    plt.ylim(xx2.min(), xx2.max())

    for idx, c1 in enumerate(np.unique(y)):
        plt.scatter(x=x[y == c1, 0], y=x[y == c1, 1], alpha=0.8, c=listedColormap(idx), marker=markers[idx], label=c1)


df = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data", header=None)

# 0到100行,第5列
y = df.iloc[0:100, 4].values
# 将target值转数字化 Iris-setosa为-1,否则值为1,相当于激活函数-在此处表现为分段函数
y = np.where(y == "Iris-setosa", -1, 1)
# 取出0到100行,第1,第三列的值
x = df.iloc[0:100, [0, 2]].values
ppn = pp.Perceptron(eta=0.1, n_iter=10)
ppn.fit(x, y)
plot_decision_regions(x, y, classifier=ppn)
# 防止中文乱码
zhfont1 = mat.font_manager.FontProperties(fname='C:\Windows\Fonts\simsun.ttc')
plt.title("鸢尾花花瓣、花萼边界分割", fontproperties=zhfont1)
plt.xlabel("花瓣长度 [cm]", fontproperties=zhfont1)
plt.ylabel("花萼长度 [cm]", fontproperties=zhfont1)

plt.legend(loc="uper left")
plt.show()

这里写图片描述

正如图中看到的那样,通过感知器学习得到的分类曲面可以完美地对训练子集中的所有样本进行分类。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习(三):感知器算法实现鸢尾花分类项目实战 的相关文章

随机推荐

  • 谈高考志愿填报

    目录 不如先说说我自己 一 选专业还是选学校 二 你想推荐 避雷的专业 三 填报志愿的策略 四 影响专业选择的因素 各省高考成绩已出 又到一年高考季 张雪峰提到 普通家庭不要光谈理想 也要谈落地 志愿怎样填报 选专业还是选学校 什么专业好就
  • 贝叶斯优化

    贝叶斯优化 BO RF贝叶斯优化随机森林多输入单输出回归预测 Matlab完整程序 目录 贝叶斯优化 BO RF贝叶斯优化随机森林多输入单输出回归预测 Matlab完整程序 预测结果 基本介绍 评价指标 程序设计 参考资料 预测结果 基本介
  • eclipse+maven搭建web项目(非常详细)

    一 前言 用maven我们能做什么 有什么好处 用maven 我们可以方便统一的进行jar包管理 jar包版本升级 快速项目构建以及分模块开发等相关功能 maven使用得好 项目开发速度就会成倍的提升 总之 项目越大 越能体现maven的优
  • java获取服务器一些信息的方法(服务器地址/相对路径/端口/项目名字)

    request getServletContext getRealPath 获取项目所在服务器的全路径 如 D Program Files apache tomcat 7 0 25 webapps TestSytem request get
  • 商品期货人数(期货品种数量)

    现在中国有多少万人从事期货投资呢 比投资的股市人数 相差多少呢 目前来说 期货账户大约150万 活跃账户大约90万左右吧 与股票投资相比肯定是小巫见大巫了 股票投资至少是期货投资的数十倍以上 中国炒期货的人数大概多少 现在期货有很多人在炒
  • 实现简单的人脸识别项目

    目录 前言 一 首先 os 文件操作
  • 使用openfeign远程过程调用java.net.sockettimeoutexception: read timed out

    项目场景 做谷粒商城的调用openfeign时报错 问题描述 一直走不下去第二步 一开始以为代码错了 debug是可以调用到那个返回的却有返回值 但是它调用了两次那个方法 因为我方法里面还有远程调用别的方法导致了超时 解决方案 方法一 修改
  • Ubuntu下Linux系统部署fisco时bash操作报错权限不足(permission denied) failed to run command ‘........‘

    Ubuntu下Linux系统部署fisco时bash操作报错权限不足 permission denied failed to run command 例如这里就指的是fisco bcos这个文件权限不足 解决方法 进入该文件目录下 执行ch
  • 3个指标,帮助您衡量数字化转型成效

    当今社会 科技的引领作用十分明显 除了各种新科技 新发明 科技也带动了数字化经济的蓬勃发展 为了更好地支撑业务 赋能业务 很多企业开启了数字化转型之路 这是一个全新的尝试 我们该如何判断企业数字化转型是否成功呢 以下3个指标 可以帮助您了解
  • 基于STM32F103的IIC实验

    实验七 IIC实验 一 实验目的 1 掌握基于固件库进行编程的方法 2 掌握基于IIC的编程方法 二 实验内容 1 实现EEPROM中数据读写并通过串口输出显示 三 预备知识 1 基于STM32固件库进行编程的方法 2 基于STM32的II
  • JUC 并发编程学习

    JUC 并发编程学习笔记 学习过程观看视频 狂神说Java https www bilibili com video BV1B7411L7tE p 13 1 并发编程包 java util concurrent 普通的线程代码 Thread
  • canvas结合background实现水印平铺效果

    canvas结合background实现水印平铺效果 const text1 水印文字1 const text2 水印文字2 let canvas document createElement canvas canvas height ca
  • uni-app

    uni app 一 准备工作 1 新建项目 2 配置浏览器 3 兼容 4 新建页面 二 上手 1 pages json文件的页面配置与全局配置 2 rpx尺寸单位 3 内置组件 4 vue2写法 1 模板 2 插值语法 3 指令 4 sty
  • 技术管理者培训小结三:强弱矩阵的优势和劣势

    强弱矩阵的区分关键 绩效是部门主管考评还是项目经理考评 人员在项目中是否唯一确定 三大关注点 是否有利于快速向客户交付价值 是否有利于人员能力的长期积累 是否有利于架构的稳定和演进 一 弱矩阵的优势 有利于专项人才培养 有利于单点技术积累
  • 【ESP32_IDF】esp32 lvgl实现gif动图

    一 LVGL 开启GIF配置 lvgl menuconfig 开启GIF decoder library 配置 lvgl menuconfig 开启LV MEM CUSTOM 配置 二 将GIF图片导为C语言数组 使用lvgl的官方tool
  • C++类String的实现代码

    include
  • python: 处理表格日期的常用场景和方法

    1 提取日期 有时候我们只需要从日期中提取出年 月 日等信息 以便更好地进行数据分析和可视化 可以使用dt属性实现 创建一个数据集 df pd DataFrame date 2019 05 01 10 00 00 2020 07 12 12
  • 学了python究竟有什么用,实际应用场景有哪些?我整理了8个应用领域

    根据我多年python开发经验 python在工作中的实际应用 整理罗列如下 目录 1 网络爬虫 2 数据分析 3 数据可视化 4 web开发 5 自动化办公 6 自动化运维 7 自动化测试 8 人工智能 1 网络爬虫 Python开发爬虫
  • 互联网摸鱼日报(2023-02-04)

    互联网摸鱼日报 2023 02 04 InfoQ 热门话题 Instagram 如何推荐新内容 Twitter 将向开发者收取 API 访问费用 网友吐槽 这是在 作死 数字化关乎生存 企业如何明晰方向和路径 InfoQ数字化公众号上线啦
  • 机器学习(三):感知器算法实现鸢尾花分类项目实战

    上一章我们已经介绍了感知器算法规则 并且用python语言实现了 现在我们应用感知器学习规则进行鸢尾花分类实验 测试数据我们从鸢尾花数据集中挑选出了山鸢尾 Setosa 和变色鸢尾 Versicolor 两种花的信息作为测试数据 虽然感知器