NLP 利器 Gensim 中 word2vec 模型词嵌入 Word Embeddings 的可视化

2023-10-31

本文为系列文章之一，前面的几篇请点击链接：
NLP 利器 gensim 库基本特性介绍和安装方式
 NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示
 NLP 利器 Gensim 来训练自己的 word2vec 词向量模型
 NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置
 NLP 利器 Gensim 中 word2vec 模型的内存需求，和模型评估方式
 NLP 利器 Gensim 中 word2vec 模型的恢复训练：载入存储模型并继续训练
 NLP 利器 Gensim 中 word2vec 模型的训练损失计算，和对比基准的选择
 NLP 利器 Gensim 中 word2vec 模型添加 model to dict 方法来加速搜索

使用 tSNE 的方法，把 Word Embeddings 降维到 2 维，就可以进行可视化了。

通过可视化，我们可以看到数据中语义和句法的呈现趋势。

例如：

语义：cat, dog, cow 等单词会比较靠近。
句法：run 和 running，或者 cut 和 cutting 会比较靠近。
向量关系：vKing - vMan = vQueen - vWoman 也可以看到。

注意：由于演示用的模型是由一个小的语料库（lee_background 语料）训练而成，所有有些关系看上去不是这么明显！

这里需要首先安装 plotly

pip install plotly

程序：

%matplotlib inline
import matplotlib.pyplot as plt
from sklearn.decomposition import IncrementalPCA    # inital reduction
from sklearn.manifold import TSNE                   # final reduction
import numpy as np                                  # array handling


def reduce_dimensions(model):
    num_dimensions = 2  # final num dimensions (2D, 3D, etc)

    vectors = [] # positions in vector space
    labels = [] # keep track of words to label our data again later
    for word in model.wv.vocab:
        vectors.append(model.wv[word])
        labels.append(word)

    # convert both lists into numpy vectors for reduction
    vectors = np.asarray(vectors)
    labels = np.asarray(labels)

    # reduce using t-SNE
    vectors = np.asarray(vectors)
    tsne = TSNE(n_components=num_dimensions, random_state=0)
    vectors = tsne.fit_transform(vectors)

    x_vals = [v[0] for v in vectors]
    y_vals = [v[1] for v in vectors]
    return x_vals, y_vals, labels


x_vals, y_vals, labels = reduce_dimensions(model)

def plot_with_plotly(x_vals, y_vals, labels, plot_in_notebook=True):
    from plotly.offline import init_notebook_mode, iplot, plot
    import plotly.graph_objs as go

    trace = go.Scatter(x=x_vals, y=y_vals, mode='text', text=labels)
    data = [trace]

    if plot_in_notebook:
        init_notebook_mode(connected=True)
        iplot(data, filename='word-embedding-plot')
    else:
        plot(data, filename='word-embedding-plot.html')


def plot_with_matplotlib(x_vals, y_vals, labels):
    import matplotlib.pyplot as plt
    import random

    random.seed(0)

    plt.figure(figsize=(12, 12))
    plt.scatter(x_vals, y_vals)

    #
    # Label randomly subsampled 25 data points
    #
    indices = list(range(len(labels)))
    selected_indices = random.sample(indices, 25)
    for i in selected_indices:
        plt.annotate(labels[i], (x_vals[i], y_vals[i]))

try:
    get_ipython()
except Exception:
    plot_function = plot_with_matplotlib
else:
    plot_function = plot_with_plotly

plot_function(x_vals, y_vals, labels)
plt.show()

运行结果：

在这里插入图片描述

图片可以放大显示：

在这里插入图片描述

至此，Gensim 中 word2vec 模型的 Demo 演示完结！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

可视化

深度学习

自然语言处理

NLP 利器 Gensim 中 word2vec 模型词嵌入 Word Embeddings 的可视化的相关文章

如何提取数字（以及比较形容词或范围）

我正在用 Python 开发两个 NLP 项目它们都有类似的任务提取数值和比较运算符来自句子如下所示 greater than 10 weight not more than 200lbs height in 5 7 feets fas
将 python NLTK 解析树保存到图像文件[重复]

这个问题在这里已经有答案了这可能会复制这个 stackoverflowquestion https stackoverflow com questions 23429117 saving nltk drawn parse tree to
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
BERT 输出不确定

BERT 输出是不确定的当我输入相同的输入时我希望输出值是确定性的但我的 bert 模型的值正在变化听起来很尴尬同一个值返回两次一次也就是说一旦出现另一个值就会出现相同的值并重复如何使输出具有确定性让我展示我的代码片段
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
如何提取句子中的主语及其各自的从属短语？

我正在尝试在句子中进行主题提取以便我能够根据主题获得情感我在用nltk在 python2 7 中用于此目的以下面的句子为例 Donald Trump is the worst president of USA but Hillary
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
使用 SciKit-learn 和大型数据集进行文本分类

首先我昨天开始学习Python 我正在尝试使用 SciKit 和大型数据集 250 000 条推文进行文本分类对于该算法每条推文都将表示为 4000 x 1 向量因此这意味着输入为 250 000 行和 4000 列当我尝试在
Lucene 标准分析器与 Snowball

刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行运行了一些测试查询并注意到如果原始术语是单数则复数查询不会返回结果我知道雪球分析器增加了词干支持这听起来不错不过我想知道超过标准的雪球锣是否有任何
获取 NLTK 索引的所有结果

我正在使用 NLTK 来查找单词的一致性但我不知道如何获取所有结果并将它们放入list or set 例如 text concordance word 仅打印前 25 个结果 TL DR text concordance lines 10
计算机AI算法写句子？

我正在寻找有关处理文本句子或在创建在正常人类语言例如英语中有效的句子时遵循结构的算法的信息我想知道这个领域是否有我可以学习或开始使用的项目例如如果我给一个程序一个名词为其提供同义词库相关单词和词性以便它理解每个单词在句子中
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
文本摘要评估 - BLEU 与 ROUGE

根据两个不同摘要系统 sys1 和 sys2 的结果和相同的参考摘要我使用 BLEU 和 ROUGE 对它们进行了评估问题是 sys1 的所有 ROUGE 分数均高于 sys2 ROUGE 1 ROUGE 2 ROUGE 3 ROUGE
如何使用WordNet或与wordnet相关的类别来实现基于类别的文本标记？

如何使用wordnet按单词类别标记文本 java作为接口 Example 考虑以下句子 1 计算机需要键盘显示器 CPU才能工作 2 汽车使用齿轮和离合器现在我的目标是例句必须标记为第 1 句话电脑电子键盘电子中央处理器电
在Python中表示语料库句子的一种热门编码

我是 Python 和 Scikit learn 库的初学者我目前需要从事一个 NLP 项目该项目首先需要通过 One Hot Encoding 来表示一个大型语料库我已经阅读了 Scikit learn 关于 preprocessi
池化与随时间池化

我从概念上理解最大总和池中发生的情况作为 CNN 层操作但我看到这个术语随时间变化的最大池或随时间变化的总和池例如用于句子分类的卷积神经网络 https arxiv org pdf 1408 5882 pdfYoon Kim
如何在 bertopic 建模中获取每个主题的所有文档

我有一个数据集并尝试使用 berTopic 建模将其转换为主题但问题是我无法获取主题的所有文档 berTopic 每个主题仅返回 3 个文档 topic model BERTopic verbose True embedding mod
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu

随机推荐

国标GB28181协议视频平台EasyGBS内网访问正常，公网无法访问是什么原因？

国标视频云服务平台EasyGBS可支持通过国标GB28181协议接入多路视频源设备实现视频流的接入转码处理与分发等功能对外输出的视频流格式包括RTSP RTMP FLV HLS WebRTC等平台视频能力丰富灵活包括监控直播
XML中PCDATA与CDATA的区别

XML中PCDATA与CDATA的区别 2011 02 10 19 27 25 分类 XML 标签 xml中pcdata与cdata的区别字号大中小订阅所有 XML 文档中的文本均会被解析器解析只有 CDATA 区段 CDATA
C语言自定义类型详解（结构体枚举联合）

目录 1 结构体类型 1 1声明 1 2结构的自引用 1 3结构体变量的定义和初始化 1 4结构体内存对齐 1 4 1结构体的对齐规则 1 4 2编译器的默认对齐数修改 1 5结构体传参 1 6结构体实现位段位段的填充可移植性 1 6
unity的asmdef报错GUID（这个报错记得重现一下，报错信息作为标题记录一下）

这应该是unity给这个程序集分配的guid unity基于2020开发的科骏插件1 0 8 放到了2017 首先出现的这个报错解决方法是将这个asmdef删除 asmdef简单来说是库的描述信息文件相关参考初步理解Unity的as
SPI协议代码

软件模拟SPI程序代码文章目录 SPI协议简介 SPI接口介绍 SPI数据传输方向 SPI传输模式通过两个单片机模拟SPI来加深理解硬件连接方式 SPI模式程序思路主机C代码波形从机C代码波形概述通过两个MCU STM3
Mybatis系列七：映射文件-自定义结果集

一案例1
使用Clion进行Qt项目开发

使用Clion进行Qt项目开发创建项目并指定Qt CMake prefix path为Qt安装路径下的E Qt Qt5 9 1 5 9 1 mingw53 32 配置编译工具链添加外部工具找到Setting gt Tool gt Ex
使用hexo和git实现多地更新和配置博客源文件

使用hexo写博客的一个问题就是源文件都是在本地的如果换了电脑需要更新博客时就会比较麻烦目前觉得比较靠谱的办法就是用github来管理了主要的思路是利用git分支实现 hexo生成的静态博客文件默认放在master分支上 hexo
面向对象程序设计的基本概念

原文链接面向对象设计类和对象 1 面向对象程序设计的基本概念 Java是一种面向对象的编程语言面向对象编程英文是Object Oriented Programming 简称OOP 那什么是面向对象编程面向对象其实是现实世界模型的自
计算机图形学【GAMES-101】1、矩阵变换原理Transform(旋转、位移、缩放、正交投影、透视投影)

快速跳转 1 矩阵变换原理Transform 旋转位移缩放正交投影透视投影 2 光栅化反走样傅里叶变换卷积 3 着色计算深度缓存着色模型着色频率 4 纹理映射重心坐标插值透视投影矫正双线性插值MipMap 环境光遮
【从零开始学爬虫】采集京东商品信息

l 采集网站场景描述采集京东电视分类中的所有商品信息使用工具前嗅ForeSpider数据采集系统免费版本下载链接 http www forenose com view forespider view download html 入
vlc控制台命令总结

本机摄像头和麦克风 dshow vdev USB Camera dshow adev 麦克风 USB Microphone 播放本机摄像头 vlc dshow dshow vdev USB Camera dshow adev 麦克风 USB
2023毕业设计-（java）音乐网站播放器+音乐网站管理系统+音乐网站后台（附下载链接）

音乐网站播放器点我下载源码和sql文件介绍音乐网站播放器音乐网站管理系统音乐网站后台源码数据库文件软件架构使用vue springboot mybatis plus mysql技术的前后端分离项目前端安装教程需要有n
Java 网络安全

1 常见的 Web 攻击 1 1 CSRF攻击 1 1 1 CSRF如何防护 1 2 XSS 攻击 1 2 1 XSS 攻击分类 1 2 2 XSS 防护 1 3 DOS 攻击 1 3 1 防护 1 4 SQL 注入 1 4 1 SQL 注
Allegro中走线长度的设置

PROPAGATION DELAY PROPAGATION DELAY这个设定主要用来对Net绝对长度的设定如要求设定一组Net的长度要在Min Mil到 Max Mil之间的话就可以用这种设定来完成要求走线Net长度在Min与Max
如何去除页面上的空格

let a this nsrsbh this nsrsbh replace s s g 左边是处理完以后的 let a 也就是a这个变量才是处理过的结果是页面上写空格不会再出现报错的情况了
关于php unset的随笔

我们可能都知道C 在使用了构造函数后再使用析构函数来释放内存那么PHP需不需要使用unset来进行变量释放内存呢偶然的我们遇到 out of memory 的错误但是服务器内存明明还有很多 memory limit也是得很大但是就
JAVA CPU过高异常处理

1 首先用 ps aux grep jar包名字找到进程的PID 直接top命令也能看到CPU最高的进程PID 2 用 top Hp 进程PID 获取CPU占用高的线程下图中PID的1091 1063就是线程ID 网上的文章用 ps m
opengl模拟太阳效果

参考 http www cnblogs com tkgamegroup p 4198811 html 我决定开个新坑了以后每周五更新这是GLSL的学习周记 GLSL就是OPENGL SHADER LANGUAGE的简称就是着色器语言
NLP 利器 Gensim 中 word2vec 模型词嵌入 Word Embeddings 的可视化

本文为系列文章之一前面的几篇请点击链接 NLP 利器 gensim 库基本特性介绍和安装方式 NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示 NLP 利器 Gensim 来训练自己的 word2vec 词向量模型

NLP 利器 Gensim 中 word2vec 模型词嵌入 Word Embeddings 的可视化

NLP 利器 Gensim 中 word2vec 模型词嵌入 Word Embeddings 的可视化 的相关文章

随机推荐

热门标签

NLP 利器 Gensim 中 word2vec 模型词嵌入 Word Embeddings 的可视化的相关文章