词的分布表示

2023-10-30

词的表示

One-hot Representation（独热表示）
“苹果”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]
优点：简介，缺点：词之间是孤立的，维数灾难。
Distributed Representation（分布式表示）
词向量或者词嵌入（word embedding）是用一个向量来表示一个词，一定程度上可以用来刻画词之间的语义距离。
给出一个文档，用一个单词序列比如 “我喜欢苹果”，然后对文档中每个不同的单词都得到一个对应的低维向量表示，“苹果”表示为 [0.11, −0.77, −0.71, 0.10, −0.50, …]。
优点：低维、相似词的词向量距离相近，缺点：计算复杂。

分布假说

上下文相似的词，其语义也相似。

语言模型

文本学习：词频、词的共现、词的搭配。
语言模型判定一句话是否为自然语言。机器翻译、拼写纠错、音字转换、问答系统、语音识别等应用在得到若干候选之后，然后利用语言模型挑一个尽量靠谱的结果。
n 元语言模型：对语料中一段长度为 n 的序列 wn−i+1,...,wi−1 ，即长度小于 n 的上文， n 元语言模型需要最大化如下似然：

P(wi|wn−i+1,...,wi−1)

wi 为语言模型要预测的 目标词，序列 wn−i+1,...,wi−1 为模型的输入，即上下文，输出则为目标词 wi 的分布。用频率估计估计 n 元条件概率：

P(wi|wn−i+1,...,wi−1)=count(wi|wn−i+1,...,wi−1,wi)count(wi|wn−i+1,...,wi−1)

通常， n 越大，越能保留词序信息，但是长序列出现的次数会非常少，导致数据稀疏的问题。一般三元模型较为常用。

基于矩阵的分布表示

基于矩阵的分布表示主要是构建“词-上下文”矩阵，通过某种技术从该矩阵中获取词的分布表示。矩阵的行表示词，列表示上下文，每个元素表示某个词和上下文共现的次数，这样矩阵的一行就描述了改词的上下文分布。常见的上下文有：（1）文档，即“词-文档”矩阵；（2）上下文的每个词，即“词-词”矩阵；（3）n-元词组，即“词-n-元组”矩阵。矩阵中的每个元素为词和上下文共现的次数，通常会利用TF-IDF、取对数等技巧进行加权和平滑。另外，矩阵的维度较高并且非常稀疏，可以通过SVD、NMF等手段进行分解降维，变为低维稠密矩阵。
经典模型代表：Global Vector模型（GloVe）。

GloVe模型（Global Vectors for Word Representation）

GloVe对“词-词”矩阵进行分解，只考虑矩阵非零的元素，同时采用了类似于推荐系统Latent Factor Model的方式进行矩阵分解。目标函数为：

J=∑xij≠0f(xij)(log(xij)−pTiqj+b(1)i+b(2)j)2

其中 b(1)i 和 b(2)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MLDM

Algorithm

Word2Vec

词的分布表示的相关文章

如何检查无向图是否有奇数环

我试图找到一个 O V E 时间算法来检查是否已连接无向图有或没有奇数环我正在考虑对图进行广度优先搜索并尝试将顶点标记为黑色和白色以便没有两个标记为相同颜色的顶点相邻是否有任何已知的更简洁的算法可以在线性时间内解决这个问题你的方
一种良好且简单的随机性测量方法

获取一长整数序列例如 100 000 个并返回序列随机性的测量值的最佳算法是什么该函数应返回单个结果如果序列并非完全随机则返回 0 如果完全随机则返回 1 如果序列有点随机它可以给出介于两者之间的东西例如0 95 可能是一个
线段树java实现[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案你知道二进制的良好实现吗线段树 http en wikipedia org wiki Segmen
简单的排名算法

我需要创建一个民意调查按照项目的好坏顺序创建一个排名列表我打算向每个用户展示两个项目让他们选择一个他们认为更好的项目然后多次重复这个过程它有点类似于您在社交网络电影我应该如何根据收到的答案对项目进行排名看着那这ELO国际象棋
如何求两个地点的经纬度距离？

我有一组位置的纬度和经度怎么找distance从集合中的一个位置到另一个位置有公式吗半正矢公式假定地球是球形的然而地球的形状更为复杂扁球体模型会给出更好的结果如果需要这样的精度你应该更好地使用文森特逆公式 See http
LRU算法，实现这个算法需要多少位？

我有一个关于 LRU 算法的小问题如果您有一个包含四个块的高速缓存那么需要多少位来实现该算法假设您指的是 4 路组关联缓存完美 LRU 本质上是按照使用顺序为每一行分配一个精确的索引您也可以将其视为年龄因此 4 个元素中的每一
这个函数（for循环）空间复杂度是O(1)还是O(n)？

public void check 10 for string i list Integer a hashtable get i if a gt 10 hashtable remove i 这是 O 1 还是 O n 我猜测 O n 但不是
如何光栅化旋转矩形（通过 setpixel 在 2d 中）

我有四个 2d 顶点 A B C D 的旋转矩形我需要在像素缓冲区中有效地光栅化绘制它使用 setpixel x y 颜色怎么做我正在尝试使用一些代码例如 convertilg a b c d do up down left
求先递增后递减列表的最大值和最小值

我尝试用谷歌搜索这个问题但没有取得太大成功我确信这个问题或类似问题有一个技术名称但我似乎找不到答案给定一个列表L整数即严格递增然后严格递减找到该列表的最大值和最小值例如 L可能 1 2 3 4 5 4 3 2 or 2 4
如何计算 3D Morton 数（交织 3 个整数的位）

我正在寻找一种快速计算 3D Morton 数的方法这个网站 http www graphics stanford edu seander bithacks html InterleaveBMN有一个基于幻数的技巧来处理 2D Morto
优化计算中使用的 # 个线程的算法

我正在执行一个操作我们将其称为CalculateSomeData CalculateSomeData 在连续的代中运行编号为 1 x 整个运行中的代数由CalculateSomeData 的输入参数固定并且是先验已知的完成一次生
为什么 Dijkstra 算法使用减密钥？

Dijkstra 教给我的算法如下 while pqueue is not empty distance node pqueue delete min if node has been visited continue else mark
面试题：三个数组，O(N*N)

假设我们有three长度数组N其中包含任意数量的类型long 然后我们得到一个数字M 相同类型我们的任务是选择三个数字A B and C每个数组中的一个换句话说A should从第一个数组中选取 B从第二个开始和C从第三个所以总和A
覆盖二维平面上给定点的最小圆

问题覆盖 2D 平面上给定 N 个点的圆的最小可能直径是多少解决这个问题最有效的算法是什么它是如何工作的这是最小圆问题 http en wikipedia org wiki Smallest circle problem 请参阅参考
当满足动态条件时退出递归函数

使用来自的函数生成汉明距离 t 内的所有比特序列 https stackoverflow com questions 40813022 generate all sequences of bits within hamming distan
sigmoid 的导数

我正在使用反向传播技术创建一个神经网络进行学习我知道我们需要找到所使用的激活函数的导数我正在使用标准 sigmoid 函数 f x 1 1 e x 我已经看到它的导数是 dy dx f x f x 1 f x 这可能是一个愚蠢的问题但
Java 中查看 ArrayList 是否包含对象的最有效方法

我有一个 Java 对象的 ArrayList 这些对象有四个字段我用其中两个字段来将对象视为与另一个对象相等我正在寻找最有效的方法给定这两个字段以查看数组是否包含该对象问题在于这些类是基于 XSD 对象生成的因此我无法修改类本
Z 算法背后的直觉

Z算法是一种复杂度为O n 的字符串匹配算法一种用例是从字符串 B 中查找字符串 A 的最长出现次数例如 overdose from stackoverflow 将会 over 您可以通过使用组合字符串调用 Z 算法来发现这一点 ove
对 Java 中 *any* 类的所有实例进行全排序

我不确定以下代码是否能确保 Comparator 的 Javadoc 中给出的所有条件 class TotalOrder
寻找公共子集的算法

I have N number of sets Si of Numbers each of a different size Let m1 m2 mn be the sizes of respective sets mi Si and M

随机推荐

Sequelizejs框架学习（待更新）

model 如果你不想使用sql语句那么你需要建立模型 model可以方便数据校验数据关联等可以用一下快捷命令创建model sequelize auto h ip d 库名 u 用户名 x 密码 p 端口号 o 生成模型的路径 t
硬件虚拟化技术浅析

目录 1 硬件虚拟化技术背景 2 KVM的内部实现概述 2 1 KVM的抽象对象 2 2 KVM的vcpu 2 3 KVM的IO虚拟化 2 3 1 IO的虚拟化 2 3 2 VirtIO 3 KVM IO可能优化地方 3 1 Virt IO
Google推荐的图片加载库Glide介绍

英文原文 Introduction to Glide Image Loader Library for Android recommended by Google 首发地址 http jcodecraeer com a anzhuokaif
python抓取链家二手房数据

usr bin env python3 coding utf 8 import json import openpyxl import pandas as pd import requests from bs4 import Beautif
HTML CSS 超级基础的制作....目录？

div class niko div
$.post 和 $.get 设置同步和异步请求

由于 post 和 get 默认是异步请求如果需要同步请求则可以进行如下使用在 post 前把ajax设置为同步 ajaxSettings async false 在 post 后把ajax改回为异步 ajaxSettings as
机器学习新手必看：Jupyter Notebook入门指南

翻译张建军出品人工智能头条公众号ID AI Thinker 人工智能头条导读 Jupyter Notebook 是一个 Web 应用程序便于创建和共享文学化程序文档支持实时代码数学方程可视化和 Markdown 其用途包括数
解决Windows系统目录console.dll文件丢失找不到问题

其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题如果是新手第一时间会认为是软件或游戏出错了其实并不是这样其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库这时你可以下载这个console
stlinkv2stm32接线_stm32 st-link v2 烧写连接图

ST Link V2 JTAG SWD 接口是如何定义的下面为 ST Link V2 JTAG SWD 接口定义仿真器端口连接目标板功能 1 TVCC MCU 电源 VCC 连接 STM32 目标板的电源 VCC 2 TVCC MC
vscode 与 idea 使用 git提交代码正确步骤

整了快两年终于等来了公司项目的重构新架构中版本控制工具用的是git 关于git我工作前期踩了几个坑并导致了一些小问题现在特记下正确的提交步骤 idea 在idea上使用git提交代码首先pull 拉取代码也就是更新若是拉取没问题就
2023电子信息工程毕设题目选题推荐

文章目录 1前言 2 如何选题 3 选题方向 2 1 嵌入式开发方向 2 2 物联网方向 2 3 移动通信方向 2 4 人工智能方向 2 5 算法研究方向 2 6 移动应用开发方向 2 7 网络通信方向 3 4 学长作品展示 1前言近期不
module ‘seaborn‘ has no attribute ‘histplot‘

在jupyter notebook上用seaborn画直方图的时候遇到以下问题解决方法 1 打开Anaconda Prompt 2 更新seaborn pip install U seaborn 3 关掉jupyter noteboo
Java连接数据库(自学笔记）

一六步骤第一步注册驱动主要告诉Java程序连接哪种数据库如MySql Orcale等我自己连接的是MySql数据库 Driver driver new com mysql jdbc Driver DriverManager re
php7opcache使用,PHP7开启OPcache加速代码执行效率提升网站访问速度

我们的网站访问速度是用户体念最重要的指标之一网站内容再好打开速度过慢估计也是没有人愿意访问的用wordpress企业主题搭建的网站常常有访问慢的问题除了优化wordpress站内问题服务器优化也是非常重要的下面分享一个优化网站访问
小程序成長之路_引入小程序自带icon 和引用阿里图标（四）

上篇我们已经成功填加tabBar 那么我们这篇就讲解一下引用图标icon 小程序里有自己的图标供大家使用但是图标有限有很多都满足不了我们的需求这次呢给大家介绍一下阿里图标里面有大量的图标供你选择点击http www iconf
matlab 等间距抽稀算法

目录一算法原理 1 原理概述 2 参考文献二代码实现三结果展示一算法原理 1 原理概述等间距抽稀算法在原始点云数据中设置采样间距为 n n n 首先在数据开始的 n n
【Kubernetes资源篇】ConfigMap配置管理中心详解

文章目录一 ConfigMap配置中心理论知识 1 ConfigMap配置中心简介 2 ConfigMap局限性二创建ConfigMap的四种方式 1 第一种通过命令行创建ConfigMap 2 第二种通过指定文件创建Config
蓝桥杯题库算法提高非vip部分（C++、Java）代码实现（281-300）

ADV 282 Island Hopping cpp include
2021最新 Minecraft我的世界云服务器搭建教程

一购买服务器熟练的朋友萌请跳过这里首先我们先去al云或者tx云买个服务器有学生优惠的话一年才120 当然最低配的单核2G 实测纯净服同时在线10个人无压力这里以al云为例演示首先在搜索栏搜索学生优惠点进去会是这样然后我买的
词的分布表示

词的表示 One hot Representation 独热表示苹果表示为 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 优点简介缺点词之间是孤立的维数灾难 Distributed Representation

热门标签