基于Sklearn实现LDA算法

2023-11-01

文章目录

一、LDA算法
二、sklearn实现LDA
三、结果如图
四、总结
五、参考

一、LDA算法

1.线性判别分析（Linear Discriminant Analysis, LDA）方法常被用于数据预处理中的降维（dimensionality reduction）步骤。LDA在保证良好的类别区分度的前提下，将数据集向更低维空间投影，以求在避免过拟合（“维数灾难”）的同时，减小计算消耗。

2.计算步骤

计算数据集中不同类别数据的 d 维均值向量。
计算散布矩阵，包括类间、类内散布矩阵。
计算散布矩阵的特征向量 e1,e2,…,ed 和对应的特征值 λ1,λ2,…,λd。
将特征向量按特征值大小降序排列，然后选择前 k 个最大特征值对应的特征向量，组建一个 d×k 维矩阵——即每一列就是一个特征向量。
用这个 d×k-维特征向量矩阵将样本变换到新的子空间。这一步可以写作矩阵乘法 Y=X×W 。 X 是 n×d 维矩阵，表示 n 个样本； y 是变换到子空间后的 n×k 维样本。

二、sklearn实现LDA

1.导入包

from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

2.定义可视化函数用于结果展示

#可视化函数
def plot_decision_regions(x, y, classifier, resolution=0.02):
    markers = ['s', 'x', 'o', '^', 'v']
    colors = ['r', 'g', 'b', 'gray', 'cyan']
    cmap = ListedColormap(colors[:len(np.unique(y))])
    x1_min, x1_max = x[:, 0].min() - 1, x[:, 0].max() + 1
    x2_min, x2_max = x[:, 1].min() - 1, x[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution), np.arange(x2_min, x2_max, resolution))
    z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    z = z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, z, alpha=0.4, cmap=cmap)
 
    for idx, cc in enumerate(np.unique(y)):
        plt.scatter(x=x[y == cc, 0],
                    y=x[y == cc, 1],
                    alpha=0.6,
                    c=cmap(idx),
                    edgecolor='black',
                    marker=markers[idx],
                    label=cc)

3.拟合数据

#数据集来源
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data',header=None)

#切割数据集
#x数据
#y标签
x, y = data.iloc[:, 1:].values, data.iloc[:, 0].values

#按照8:2比例划分训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, stratify=y, random_state=0)

#标准化单位方差
sc = StandardScaler()
x_train_std = sc.fit_transform(x_train)
x_test_std = sc.fit_transform(x_test)

lda = LDA(n_components=2)
lr = LogisticRegression()

#训练
x_train_lda = lda.fit_transform(x_train_std, y_train)
#测试
x_test_lda = lda.fit_transform(x_test_std, y_test)
#拟合
lr.fit(x_train_lda, y_train)

4.结果展示

# 画图高宽，像素
plt.figure(figsize=(6, 7), dpi=100)  
plot_decision_regions(x_train_lda, y_train, classifier=lr)
plt.show()

三、结果如图

在这里插入图片描述

四、总结

LDA优点：

LDA在样本分类信息依赖均值而不是方差的时候，比PCA分类的算法更优
在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识

LDA缺点：

LDA与PCA都不适合对非高斯分布的样本进行降维
LDA降维最多降到类别数K-1的维数
LDA在样本分类信息依赖方差而不是均值的时候降维效果不好
LDA可能过度拟合数据

五、参考

https://blog.csdn.net/Charzous/article/details/108064317

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

sklearn

算法

python

基于Sklearn实现LDA算法的相关文章

使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关
让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

linux 动态库段错误,dlopen加载so动态链接库出现段错误的问题

so库中暴露出来的函数写在某基类头文件中大体如下 ifdef cplusplus extern C endif Object construct return new Object void destroy Object object
Linux操作系统基础知识学习

Q1 什么是GNU Linux与GNU有什么关系 A 1 GNU是GNU is Not Unix的递归缩写是自由软件基金会 Free Software Foundation FSF 的一个项目该项目已经开发了许多高质量的编程工具包括e
STM32串口调试一直打印 00 00

在STM32串口调试过程中通过printf函数往串口打印英文字母串口助手却一直收到 00 凭直觉这种情况一般都是时钟没配置好但是查代码很难找到原因经过反复查找发现是STM32CubeMX中时钟源选择错误就是下面这个地方切记一
Go 语言运行时环境变量快速导览

原文 http dave cheney net 2015 11 29 a whirlwind tour of gos runtime environment variables Go 语言运行时环境变量快速导览介绍 Go Runtime除
ubuntu 打包deb并带有安装目录

0 简介当在ubuntu下开发了一个工程期望以deb包的形式发布出去的时候会涉及到打包操作基本指令是 dpkg b
docker registry2 仓库搭建与使用

docker registry2 仓库搭建与使用 docker pull registry 1 docker io distribution registry 2 1 1 以TLS证书认证启动docker registry2 产生证书 mk
hibernate关联关系

前言今天要分享的知识是hibernate框架的关联关系码字不易点个赞转载请说明开发工具 eclipse 目录一一对多的配置二懒加载 1 定义懒加载可以这样理解只加载某一项东西其他的东西不会加载 2 操作在我们进行项
问题解决：WSL2 中进行 apt-get-update 失败

WSL2 子系统在一些操作上还是很方便的但因为有些配置和 Windows 共用的原因总会出现这样那样的问题比如今天安装 Redis 的时候需要提前进行包更新结果却报错 Failed to fetch 这个问题的出现我首先是考虑国外源
Error: JAVA_HOME is not set

启动Hadoop时显示这句话解决方法通过echo JAVA HOME找到java安装目录在hadoop的配置目录etc hadoop中我的是 usr local hadoop etc hadoop 修改hadoop env sh配置
jenkins - Manage and Assign Roles

Role Strategy Plugin 插件针对多个project进行权限控制访问上几张图希望你能看明白哈哈 1 png 710dba0dgy1fkgqp3cze1j219g0kmn24 jpg 710dba0dgy1fkgqp
MySQL查询语句in子查询的优化

项目中有需要使用MySQL的in子查询查询符合in子查询集合中条件的数据但是没想到的是 MySQL的in子查询会如此的慢让人无法接收于是上网搜索解决办法下面记录下一原始in子查询 SELECT FROM basic zdjb
Ubuntu系统上安装WPS

前言在Ubuntu系统下想使用WPS的功能觉得用起来更加方便所以在此记录一下安装的步骤记录两种安装方法方法一 Ubuntu Software中搜索WPS 如图所示在Ubuntu Software中搜索WPS 可能需要稍等一会再
python使用局部敏感性哈希算法，在海量数据中查询相似序列

文章目录一原生python实现二第三方库datasketch使用 1 官方示例 2 LSH算法 3 MinHashLSHForest 局部敏感性哈希是指相似的哈希具有相似的原始序列整体思路首先将数据装在不同的桶里通过桶之间的
2023国赛数学建模思路 - 案例：随机森林

文章目录 1 什么是随机森林 2 随机深林构造流程 3 随机森林的优缺点 3 1 优点 3 2 缺点 4 随机深林算法实现建模资料 0 赛题思路赛题出来以后第一时间在CSDN分享 https blog csdn net dc sinor
隐私计算S2赛季-谁是真正的王者

去年至今隐私计算大约经历了如火如荼的一年身为局中人看穿居中事道尽居中话为的无非是让更多的来了解这个比较细分的AI领域秋天本是硕果累累的丰收季隐私计算这个行业算是金秋吗一喜一悲一喜为百花齐放我所知道在布挂局钩隐私计
VL53L0X调试总结

最近调VL53L0X花了不少时间特总结下 https www st com content st com en search html q vl53l t products page 1 VL53L0X测距2m VL53L1X测距4m 支
networkx 中文学习手册

文章目录创建图表节点边检查图的元素从图中删除元素使用图构造函数什么用作节点和边访问边和邻居向图节点和边添加属性图形属性节点属性边缘属性多图图生成器和图操作 1 应用经典的图操作例如 2 使用对经典小图之一的调
Harmony OS WiFi编程——连接热点、创建热点

本节主要介绍如何在HiSpark WiFi IoT套件上使用Hamony OS的WiFi相关编程接口相关知识点 WiFi的工作模式 AP模式热点模式提供无线接入服务允许其它无线设备接入提供数据访问一般的无线路由网桥工作在该模式
JavaNote 1.7final、finally、访问权限

一 final 1 final的变量的值不能被改变 2 final的方法不能被重写 3 final的类不能被继承二 finally finally 语句块必须执行通常在finally语句块中执行资源清除工作如关闭打开的文件删除临时
基于Sklearn实现LDA算法

文章目录一 LDA算法二 sklearn实现LDA 三结果如图四总结五参考一 LDA算法 1 线性判别分析 Linear Discriminant Analysis LDA 方法常被用于数据预处理中的降维 dimension