t-SNE数据降维(2维3维)及可视化

2023-10-30

(最近看了一个叫光谱特征在后门攻击中的用法,读完之后发现是用了一个SVD也就是奇异值分解做了降维,然后用残差网络的representation层残差与残差的奇异值分解后的右奇异值矩阵的第一行做乘法得到correlation,疑惑得很什么时候相关性可以这么算了。于是想到降维可以不用SVD可以用TSNE,就写一下这一块的东西,融合了别人写的二维和三维的可视化)

 t-SNE全称为t-distributed Stochastic Neighbor Embedding,翻译为t-随机邻近嵌入,它是一种embedding模型,用于高维空间中的数据映射到低维空间中,并保留数据集的局部特性,该算法在论文中非常常见,主要用于高维数据的降维和可视化。
    t-SNE可以算是目前效果最好的数据降维和可视化方法之一,当我们想对高维数据集进行分类,但又不清楚这个数据集有没有很好的可分性时,可以通过t-SNE将数据投影到2维或3维空间中观察一下:如果在低维空间中具有可分性,则数据是可分的;如果在低维空间中不可分,则可能是因为数据集本身不可分,或者数据集中的数据不适合投影到低维空间。
    t-SNE将数据点之间的相似度转化为条件概率,原始空间中数据点的相似度由高斯联合分布表示,嵌入空间中数据点的相似度由学生t分布表示。通过原始空间和嵌入空间的联合概率分布的KL散度(用于评估两个分布的相似度的指标,经常用于评估机器学习模型的好坏)来评估嵌入效果的好坏,即将有关KL散度的函数作为损失函数(loss function),通过梯度下降算法最小化损失函数,最终获得收敛结果。要注意t-SNE的缺点很明显:占用内存较多、运行时间长。

1 降维
    首先,通过一个简单的示例看一下t-SNE的降维效果:输入4个5维的数据,通过t-SNE将其降维成2维的数据,代码如下:

import numpy as np
from sklearn.manifold import TSNE

"""将3维数据降维2维"""

# 4个3维的数据
x = np.array([[0, 0, 0, 1, 2], [0, 1, 1, 3, 5], [1, 0, 1, 7, 2], [1, 1, 1, 10, 22]])
# 嵌入空间的维度为2,即将数据降维成2维
ts = TSNE(n_components=2)
# 训练模型
ts.fit_transform(x)
# 打印结果
print(ts.embedding_)

       


2 S型曲线的降维与可视化
    S型曲线中的数据是高维的数据,不同的颜色表示不同的数据点。当我们通过t-SNE将数据嵌入到2维空间中后,可以看到数据点之间的类别信息被完整地保留了下来。代码如下:

import matplotlib.pyplot as plt
from sklearn import manifold, datasets

"""对S型曲线数据的降维和可视化"""

# 生成1000个S型曲线数据
x, color = datasets.samples_generator.make_s_curve(n_samples=1000, random_state=0)		# x是[1000,2]的2维数据,color是[1000,1]的一维数据

n_neighbors = 10
n_components = 2

# 创建自定义图像
fig = plt.figure(figsize=(8, 8))		# 指定图像的宽和高
plt.suptitle("Dimensionality Reduction and Visualization of S-Curve Data ", fontsize=14)		# 自定义图像名称

# 绘制S型曲线的3D图像
ax = fig.add_subplot(211, projection='3d')		# 创建子图
ax.scatter(x[:, 0], x[:, 1], x[:, 2], c=color, cmap=plt.cm.Spectral)		# 绘制散点图,为不同标签的点赋予不同的颜色
ax.set_title('Original S-Curve', fontsize=14)
ax.view_init(4, -72)		# 初始化视角

# t-SNE的降维与可视化
ts = manifold.TSNE(n_components=n_components, init='pca', random_state=0)
# 训练模型
y = ts.fit_transform(x)
ax1 = fig.add_subplot(2, 1, 2)
plt.scatter(y[:, 0], y[:, 1], c=color, cmap=plt.cm.Spectral)
ax1.set_title('t-SNE Curve', fontsize=14)
# 显示图像
plt.show()

    效果如下图所示:

 



3 手写数字数据集的降维与可视化
    手写数字数据集是一个经典的图片分类数据集,数据集中包含0-9这10个数字的灰度图片,每张图片以8*8共64个像素点表示。具体代码如

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.manifold import TSNE


# 加载数据
def get_data():
	"""
	:return: 数据集、标签、样本数量、特征数量
	"""
	digits = datasets.load_digits(n_class=10)
	data = digits.data		# 图片特征
	label = digits.target		# 图片标签
	n_samples, n_features = data.shape		# 数据集的形状
	return data, label, n_samples, n_features


# 对样本进行预处理并画图
def plot_embedding(data, label, title):
	"""
	:param data:数据集
	:param label:样本标签
	:param title:图像标题
	:return:图像
	"""
	x_min, x_max = np.min(data, 0), np.max(data, 0)
	data = (data - x_min) / (x_max - x_min)		# 对数据进行归一化处理
	fig = plt.figure()		# 创建图形实例
	ax = plt.subplot(111)		# 创建子图
	# 遍历所有样本
	for i in range(data.shape[0]):
		# 在图中为每个数据点画出标签
		plt.text(data[i, 0], data[i, 1], str(label[i]), color=plt.cm.Set1(label[i] / 10),
				 fontdict={'weight': 'bold', 'size': 7})
	plt.xticks()		# 指定坐标的刻度
	plt.yticks()
	plt.title(title, fontsize=14)
	# 返回值
	return fig


# 主函数,执行t-SNE降维
def main():
	data, label , n_samples, n_features = get_data()		# 调用函数,获取数据集信息
	print('Starting compute t-SNE Embedding...')
	ts = TSNE(n_components=2, init='pca', random_state=0)
	# t-SNE降维
	reslut = ts.fit_transform(data)
	# 调用函数,绘制图像
	fig = plot_embedding(reslut, label, 't-SNE Embedding of digits')
	# 显示图像
	plt.show()


# 主函数
if __name__ == '__main__':
	main()

    效果截图如下:

 

4 3D可视化效果图

import tensorflow as tf
import numpy as np
from sklearn.manifold import TSNE  # TSNE集成在了sklearn中
import matplotlib.pylab as plt
from mpl_toolkits.mplot3d import Axes3D  # 进行3D图像绘制

import input_data  # MNIST的数据操作文件

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
saver = tf.train.import_meta_graph('model/model.ckpt.meta')  # tensorflow加载神经网络图结构
gragh = tf.get_default_graph()

image_input = gragh.get_tensor_by_name('Placeholder:0')  # 获得图中预定义的输入,即MNIST图像
label_input = gragh.get_tensor_by_name('Placeholder_1:0')  # 获得对应图像的标签
predict = gragh.get_tensor_by_name('fco/BiasAdd:0')  # 获得网络的输出值

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())

    saver.restore(sess, tf.train.latest_checkpoint("model"))  # tensorflow恢复神经网络参数到当前图

    # 方便快速计算,只取训练集前面2000个数据进行可视化。
    pre = sess.run(predict,
                   feed_dict={image_input: mnist.test.images[:2000, :], label_input: mnist.test.labels[:2000, :]})

    # TSNE进行降维计算,n_components代表降维维度
    embedded = TSNE(n_components=3).fit_transform(pre)

    # 对数据进行归一化操作
    x_min, x_max = np.min(embedded, 0), np.max(embedded, 0)
    embedded = embedded / (x_max - x_min)

    # 创建显示的figure
    fig = plt.figure()
    ax = Axes3D(fig)
    # 将数据对应坐标输入到figure中,不同标签取不同的颜色,MINIST共0-9十个手写数字
    ax.scatter(embedded[:, 0], embedded[:, 1], embedded[:, 2],
               c=plt.cm.Set1(np.argmax(mnist.test.labels[:2000, :], axis=1) / 10.0))

    # 关闭了plot的坐标显示
    plt.axis('off')
    plt.show()

3D可视化效果图,不同颜色代表不同的数字类别

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

t-SNE数据降维(2维3维)及可视化 的相关文章

  • 具有多处理功能的 Python 代码无法在 Windows 上运行

    以下简单的绝对初学者代码在 Ubuntu 14 04 Python 2 7 6 和 Cygwin Python 2 7 8 上运行 100 但在 Windows 64 位 Python 2 7 8 上挂起 我使用另一个片段观察到了同样的情况
  • Spark MLlib - 训练隐式警告

    我在使用时不断看到这些警告trainImplicit WARN TaskSetManager Stage 246 contains a task of very large size 208 KB The maximum recommend
  • 底图上的子图

    我有一张英国地图和 121 个地点 每个地点有 3 个值 我想绘制 121 个位置中每个位置的三个值的小条形图 目前 这些值绘制为markersize属性 看起来像这样 密集恐惧症情节 https i stack imgur com 5fv
  • Python 遍历目录树的方法是什么?

    我觉得分配文件和文件夹并执行 item 部分有点黑客 有什么建议么 我正在使用Python 3 2 from os import from os path import def dir contents path contents list
  • Python 中的安全解除引用

    Groovy 有一个很好的安全取消引用运算符 这有助于避免 NullPointerExceptions variable method The method仅当以下情况时才会被调用variable is not null 有没有办法在 Py
  • 将 API 数据存储到 DataFrame 中

    我正在运行 Python 脚本来从 Interactive Brokers API 收集金融市场数据 连接到API后 终端打印出请求的历史数据 如何将数据保存到数据帧中而不是在终端中流式传输 from ibapi wrapper impor
  • 如何使用循环将十进制转换为二进制?

    我想编写一个程序 将十进制数 0 到 9 转换为二进制数 我可以编写如何使用重复除法将十进制数转换为二进制数的代码 但是 我在创建一个以二进制格式打印十进制数字 0 到 9 的循环时遇到了麻烦 这是我的代码 number 0 remaind
  • 为 Networkx 图添加标题?

    我希望我的代码创建一个带有标题的图 使用下面的代码 可以创建绘图 但没有标题 有人可以告诉我我做错了什么吗 import pandas as pd import networkx as nx from networkx algorithms
  • 如何使用 Pandas 将巨大的 CSV 转换为 SQLite?

    我有一个巨大的表 大约 60 GB 采用存档的 CSV 文件形式 我想将其转换为 SQLite 文件 我现在所做的事情如下 import pandas import sqlite3 cnx sqlite3 connect db sqlite
  • 错误:无法访问文件“$libdir/plpython2”:没有这样的文件或目录

    我正在运行 postgresql 9 4 PostgreSQL 9 4 4 on x86 64 unknown linux gnu compiled by gcc GCC 4 1 2 20070626 Red Hat 4 1 2 14 64
  • 如何从 Python 中指定运行程序的输入文件?

    我正在编写一个外部脚本 以通过笔记本电脑上的 Python mrjob 模块 而不是在 Amazon Elastic Compute Cloud 或任何大型集群上 运行 mapreduce 作业 我读自mrjob文档 http packag
  • Matplotlib 图例不工作

    自从升级 matplotlib 以来 每当尝试创建图例时 我都会收到以下错误 usr lib pymodules python2 7 matplotlib legend py 610 UserWarning Legend does not
  • Python正则表达式从字符串中获取浮点数

    我正在使用正则表达式来解析字符串中的浮点数 re findall a zA Z d d t 是我使用的代码 这段代码有问题 如果数字和任何字符之间没有空格 则不会解析该数字 例如 0 1 2 3 4 5 6 7 8 9 的预期输出为 0 1
  • Spark中的count和collect函数抛出IllegalArgumentException

    当我使用时抛出此异常时 我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效 我试图搜索这个问题 但没有找到原因 看来RDD的分区有问题 有任何想法吗 先感谢您 sc stop sc Spark
  • numpy.cov() 返回意外的输出

    我有一个 X 数据集 有 9 个特征和 683 行 683x9 我想获取这个 X 数据集和另一个与 X 具有相同形状的数据集的协方差矩阵 我使用np cov originalData generatedData rowvar False 代
  • Django 接受 AM/PM 作为表单输入

    我试图弄清楚如何使用 DateTime 字段在 Django 中接受 am pm 作为时间格式 但我遇到了一些麻烦 我尝试在 forms py 文件中这样设置 pickup date time from DateTimeField inpu
  • Jupyter Notebook:没有名为 pandas 的模块

    我搜索了其他问题 但没有找到任何有帮助的内容 大多数只是建议您使用 conda 或 pip 安装 pandas 在我的 jupyter 笔记本中 我试图导入 pandas import pandas as pd 但我收到以下错误 Modul
  • 如何正确消除字典中的元素直到只剩下一个字符串

    我真的需要这方面的帮助 def get winner dict winner new dict for winner in dict winner first letter winner 0 value dict winner winner
  • 在 Python 的 Textmate 中突出显示尾随空格?

    我想做类似的事情this http remysharp com 2008 03 30 trailing white space in textmate Textmate 提示 这样当我在 Python 中编写代码时 尾随空白总是以某种方式突
  • Python 枚举子集迭代

    我想迭代以下枚举的子集 class Items enum Enum item1 0 item2 1 item3 2 item4 3 item5 4 item6 5 item7 6 item8 7 说我想 for item in Items

随机推荐

  • VS2017+cmake+DCMTK编译安装

    转载自嗯哇创作https blog csdn net chaoenhu article details 78200274 Visual Studio 2015 cmake编译安装MD版的DCMTK 一 编译环境 本文的编译机器是Window
  • 判断字符串类型以及对比

  • R语言数据处理:tidyr包学习

    文章目录 前言 1 gather 函数 2 spread 函数 3 unite 函数 4 separate 函数 5 缺失值处理 总结 前言 在R语言中 tidyr包的应用 tidyr主要提供了一个类似Excel中数据透视表 pivotta
  • git远程连接全流程

    查看文件状态 git status 把文件提交到暂存区 git add 提交文件 命令形式 git commit m 注释内容 连接到远程仓库 这里的origin是远端名称 一般默认都是origin 后面的地址是仓库路径 git remot
  • office2022最新版本Microsoft 365

    office2022正式版是微软即将发布的全新的office版本 office2022正式版将于 2021 年下半年发布 适用于 Windows 和 macOS 系统 按照惯例 微软每隔三年发布一次新版 Office 所以在2021年下半年
  • KEIL调试正在运行的程序

    问题现象 有时程序跑着跑着就飞了 但此时却没有接仿真器 不能停下来看运行状态 如果重新启动调试 会破坏现场 有没有办法attach到应用程序上调试呢 答案是肯定的 解决措施 在调试选项中 取消以下选择项 Options For Target
  • Oracle练习题(九)

    Oracle练习题 九 1 创建一个存储过程 以员工号为参数 输出该员工的工资 创建存储过程 create or replace procedure print sal n number as val sal emp sal type be
  • “==“和equals的区别是什么

    对于基本类型 比较的是值是否相等 对于引用类型 比较的是地址是否相等 equals 比较的是对象是否相等 不能比较基本类型 因为equals是Object超类中的方法 而Object是所有类的父类 因为 Java 只有值传递 所以 对于 来
  • 把符合要求的数组放到一个新的数组中

    var arra j 0 筛选出大于等于比值 for var i 0 i lt arr length i if arr i gt num arra j arr i 我们经常有这样的需求 我们要筛选出 一个数值最接近数组中的某个数据 并且选择
  • CCF-CSP 新生必读

    CCF软件能力认证 Certified Software Professional CSP CSP认证考什么 怎么考 1 认证概况 认证名称 计算机软件能力考试认证 简称软件能力认证 认证定义 软件能力包括软件的开发 测试 部署和运行维护能
  • 简单的vscode打开多个文件时实现标签栏多行显示

    一 问题描述 vscode在打开文件的时候所有的标签都是在一行 找个东西就很麻烦 设置成多行显示就很方便了 二 设置 打开vscode的设置 搜索wrap tabs 勾选上就可以了
  • hibernate type=MyISAM 报错

    在配置hibernate cfg xml中 如果配置了使用hibernate创建表 则会出现type mylsam错误 主要为引擎错误 错误操作 hibernate cfg xml配置了下面语句后 自动创建表 不建议使用
  • Java读取、写入、处理Excel文件中的数据

    在日常工作中 我们常常会进行文件读写操作 除去我们最常用的纯文本文件读写 更多时候我们需要对Excel中的数据进行读取操作 本文将介绍Excel读写的常用方法 希望对大家学习Java读写Excel会有帮助 在开始进行Java读写Excel前
  • c# 获取快捷方式指向的目标路径

    注意 在使用如下代码之前需进行这些操作 选择 解决方案资源管理 引用 右键 添加引用 COM Windows Script Host Object Model 确定 代码如下 获取快捷方式指向的目标路径 public static read
  • VC++ 教程

    基本概念 对象 面向对象编程2 定义实体后 可以不知道此实体的功能是怎样实现的 也能使用它们 核心概念 1 数据封装 将一个数据与这个数据有关的操作集合封装在一起 形成一个能动的实体 称为对象 2 继承 在面向对象语言中 类功能支持层次机制
  • 给你一个 非空 整数数组 nums ,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。

    给你一个 非空 整数数组 nums 除了某个元素只出现一次以外 其余每个元素均出现两次 找出那个只出现了一次的元素 比如 nums 4 1 2 1 2 返回 4 法一思路 使用异或 由于相同的元素异或结果是0 0和任意元素异或都是该元素 所
  • 谈谈Spring中都用到了哪些设计模式?

    控制反转 IOC 和依赖注入 DI IoC Inversion of Control 控制翻转 是Spring 中一个非常非常重要的概念 它不是什么技术 而是一种解耦的设计思想 它的主要目的是借助于 第三方 即Spring 中的 IOC 容
  • 2023全国电子设计竞赛的一点思路

    2023电赛开始了 看了一下题目 有几个题有一点思路 分享给大家 不知道对不对 欢迎一起讨论 C题 电感电容测量装置 用数字电桥的方案 网上有开源的方案 可以找找 ADI有个集成芯片AD5933 是测量阻抗的 可以看看能不能用 参考 htt
  • 高防cdn和高防服务器有什么不一样?

    高防cdn 相信很多看过我们文章的小伙伴对cdn已经很了解了 cdn的原理很简单 就是构建在网络上的很多个节点 为网站作内容 分发 使用户就近获取所需资源 且分配的cdn节点都是高防节点 每个节点都有防御功能 还可以帮助用户隐藏真实ip 高
  • t-SNE数据降维(2维3维)及可视化

    最近看了一个叫光谱特征在后门攻击中的用法 读完之后发现是用了一个SVD也就是奇异值分解做了降维 然后用残差网络的representation层残差与残差的奇异值分解后的右奇异值矩阵的第一行做乘法得到correlation 疑惑得很什么时候相