词的分布表示

2023-10-30

词的表示

  • One-hot Representation(独热表示)
    “苹果”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]
    优点:简介,缺点:词之间是孤立的,维数灾难。
  • Distributed Representation(分布式表示)
    词向量或者词嵌入(word embedding)是用一个向量来表示一个词,一定程度上可以用来刻画词之间的语义距离。
    给出一个文档,用一个单词序列比如 “我喜欢苹果”,然后对文档中每个不同的单词都得到一个对应的低维向量表示,“苹果”表示为 [0.11, −0.77, −0.71, 0.10, −0.50, …]。
    优点:低维、相似词的词向量距离相近,缺点:计算复杂。

分布假说

上下文相似的词,其语义也相似。

语言模型

文本学习:词频、词的共现、词的搭配。
语言模型判定一句话是否为自然语言。机器翻译、拼写纠错、音字转换、问答系统、语音识别等应用在得到若干候选之后,然后利用语言模型挑一个尽量靠谱的结果。
n 元语言模型:对语料中一段长度为 n 的序列 wni+1,...,wi1 ,即长度小于 n 的上文, n 元语言模型需要最大化如下似然:

P(wi|wni+1,...,wi1)

wi 为语言模型要预测的 目标词,序列 wni+1,...,wi1 为模型的输入,即上下文,输出则为目标词 wi 的分布。用频率估计估计 n 元条件概率:
P(wi|wni+1,...,wi1)=count(wi|wni+1,...,wi1,wi)count(wi|wni+1,...,wi1)

通常, n 越大,越能保留词序信息,但是长序列出现的次数会非常少,导致数据稀疏的问题。一般三元模型较为常用。

基于矩阵的分布表示

基于矩阵的分布表示主要是构建“词-上下文”矩阵,通过某种技术从该矩阵中获取词的分布表示。矩阵的行表示词,列表示上下文,每个元素表示某个词和上下文共现的次数,这样矩阵的一行就描述了改词的上下文分布。常见的上下文有:(1)文档,即“词-文档”矩阵;(2)上下文的每个词,即“词-词”矩阵;(3)n-元词组,即“词-n-元组”矩阵。矩阵中的每个元素为词和上下文共现的次数,通常会利用TF-IDF、取对数等技巧进行加权和平滑。另外,矩阵的维度较高并且非常稀疏,可以通过SVD、NMF等手段进行分解降维,变为低维稠密矩阵。
经典模型代表:Global Vector模型(GloVe)。

GloVe模型(Global Vectors for Word Representation

GloVe对“词-词”矩阵进行分解,只考虑矩阵非零的元素,同时采用了类似于推荐系统Latent Factor Model的方式进行矩阵分解。目标函数为:

J=xij0f(xij)(log(xij)pTiqj+b(1)i+b(2)j)2

其中 b(1)i b(2)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

词的分布表示 的相关文章

  • 如何检查无向图是否有奇数环

    我试图找到一个 O V E 时间算法来检查是否已连接 无向图有或没有奇数环 我正在考虑对图进行广度优先搜索 并尝试将顶点标记为黑色和白色 以便没有两个标记为相同颜色的顶点相邻 是否有任何已知的更简洁的算法可以在线性时间内解决这个问题 你的方
  • 一种良好且简单的随机性测量方法

    获取一长整数序列 例如 100 000 个 并返回序列随机性的测量值的最佳算法是什么 该函数应返回单个结果 如果序列并非完全随机 则返回 0 如果完全随机 则返回 1 如果序列有点随机 它可以给出介于两者之间的东西 例如0 95 可能是一个
  • 线段树java实现[关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 你知道 二进制 的良好实现吗线段树 http en wikipedia org wiki Segmen
  • 简单的排名算法

    我需要创建一个民意调查 按照项目的好坏顺序创建一个排名列表 我打算向每个用户展示两个项目 让他们选择一个他们认为更好的项目 然后多次重复这个过程 它有点类似于您在社交网络电影 我应该如何根据收到的答案对项目进行排名 看着那 这ELO国际象棋
  • 如何求两个地点的经纬度距离?

    我有一组位置的纬度和经度 怎么找distance从集合中的一个位置到另一个位置 有公式吗 半正矢公式假定地球是球形的 然而 地球的形状更为复杂 扁球体模型会给出更好的结果 如果需要这样的精度 你应该更好地使用文森特逆公式 See http
  • LRU算法,实现这个算法需要多少位?

    我有一个关于 LRU 算法的小问题 如果您有一个包含四个块的高速缓存 那么需要多少位来实现该算法 假设您指的是 4 路组关联缓存 完美 LRU 本质上是按照使用顺序为每一行分配一个精确的索引 您也可以将其视为 年龄 因此 4 个元素中的每一
  • 这个函数(for循环)空间复杂度是O(1)还是O(n)?

    public void check 10 for string i list Integer a hashtable get i if a gt 10 hashtable remove i 这是 O 1 还是 O n 我猜测 O n 但不是
  • 如何光栅化旋转矩形(通过 setpixel 在 2d 中)

    我有四个 2d 顶点 A B C D 的旋转矩形 我需要在像素缓冲区中 有效地 光栅化 绘制它 使用 setpixel x y 颜色 怎么做 我正在尝试使用一些代码 例如 convertilg a b c d do up down left
  • 求先递增后递减列表的最大值和最小值

    我尝试用谷歌搜索这个问题 但没有取得太大成功 我确信这个问题或类似问题有一个技术名称 但我似乎找不到答案 给定一个列表L整数 即严格递增 然后严格递减 找到该列表的最大值和最小值 例如 L可能 1 2 3 4 5 4 3 2 or 2 4
  • 如何计算 3D Morton 数(交织 3 个整数的位)

    我正在寻找一种快速计算 3D Morton 数的方法 这个网站 http www graphics stanford edu seander bithacks html InterleaveBMN有一个基于幻数的技巧来处理 2D Morto
  • 优化计算中使用的 # 个线程的算法

    我正在执行一个操作 我们将其称为CalculateSomeData CalculateSomeData 在连续的 代 中运行 编号为 1 x 整个运行中的代数由CalculateSomeData 的输入参数固定 并且是先验已知的 完成一次生
  • 为什么 Dijkstra 算法使用减密钥?

    Dijkstra 教给我的算法如下 while pqueue is not empty distance node pqueue delete min if node has been visited continue else mark
  • 面试题:三个数组,O(N*N)

    假设我们有three长度数组N其中包含任意数量的类型long 然后我们得到一个数字M 相同类型 我们的任务是选择三个数字A B and C每个数组中的一个 换句话说A should从第一个数组中选取 B从第二个开始和C从第三个 所以总和A
  • 覆盖二维平面上给定点的最小圆

    问题 覆盖 2D 平面上给定 N 个点的圆的最小可能直径是多少 解决这个问题最有效的算法是什么 它是如何工作的 这是最小圆问题 http en wikipedia org wiki Smallest circle problem 请参阅参考
  • 当满足动态条件时退出递归函数

    使用来自的函数生成汉明距离 t 内的所有比特序列 https stackoverflow com questions 40813022 generate all sequences of bits within hamming distan
  • sigmoid 的导数

    我正在使用反向传播技术创建一个神经网络进行学习 我知道我们需要找到所使用的激活函数的导数 我正在使用标准 sigmoid 函数 f x 1 1 e x 我已经看到它的导数是 dy dx f x f x 1 f x 这可能是一个愚蠢的问题 但
  • Java 中查看 ArrayList 是否包含对象的最有效方法

    我有一个 Java 对象的 ArrayList 这些对象有四个字段 我用其中两个字段来将对象视为与另一个对象相等 我正在寻找最有效的方法 给定这两个字段 以查看数组是否包含该对象 问题在于这些类是基于 XSD 对象生成的 因此我无法修改类本
  • Z 算法背后的直觉

    Z算法是一种复杂度为O n 的字符串匹配算法 一种用例是从字符串 B 中查找字符串 A 的最长出现次数 例如 overdose from stackoverflow 将会 over 您可以通过使用组合字符串调用 Z 算法来发现这一点 ove
  • 对 Java 中 *any* 类的所有实例进行全排序

    我不确定以下代码是否能确保 Comparator 的 Javadoc 中给出的所有条件 class TotalOrder
  • 寻找公共子集的算法

    I have N number of sets Si of Numbers each of a different size Let m1 m2 mn be the sizes of respective sets mi Si and M

随机推荐

  • Sequelizejs框架学习(待更新)

    model 如果你不想使用sql语句 那么你需要建立模型 model可以方便数据校验 数据关联等 可以用一下快捷命令创建model sequelize auto h ip d 库名 u 用户名 x 密码 p 端口号 o 生成模型的路径 t
  • 硬件虚拟化技术浅析

    目录 1 硬件虚拟化技术背景 2 KVM的内部实现概述 2 1 KVM的抽象对象 2 2 KVM的vcpu 2 3 KVM的IO虚拟化 2 3 1 IO的虚拟化 2 3 2 VirtIO 3 KVM IO可能优化地方 3 1 Virt IO
  • Google推荐的图片加载库Glide介绍

    英文原文 Introduction to Glide Image Loader Library for Android recommended by Google 首发地址 http jcodecraeer com a anzhuokaif
  • python抓取链家二手房数据

    usr bin env python3 coding utf 8 import json import openpyxl import pandas as pd import requests from bs4 import Beautif
  • HTML CSS 超级基础的制作....目录?

    div class niko div
  • $.post 和 $.get 设置同步和异步请求

    由于 post 和 get 默认是 异步请求 如果需要同步请求 则可以进行如下使用 在 post 前把ajax设置为同步 ajaxSettings async false 在 post 后把ajax改回为异步 ajaxSettings as
  • 机器学习新手必看:Jupyter Notebook入门指南

    翻译 张建军 出品 人工智能头条 公众号ID AI Thinker 人工智能头条导读 Jupyter Notebook 是一个 Web 应用程序 便于创建和共享文学化程序文档 支持实时代码 数学方程 可视化和 Markdown 其用途包括数
  • 解决Windows系统目录console.dll文件丢失找不到问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个console
  • stlinkv2stm32接线_stm32 st-link v2 烧写 连接 图

    ST Link V2 JTAG SWD 接口是如何定义的 下面为 ST Link V2 JTAG SWD 接口定义 仿真器端口 连接目标板 功能 1 TVCC MCU 电源 VCC 连接 STM32 目标板的电源 VCC 2 TVCC MC
  • vscode 与 idea 使用 git提交代码正确步骤

    整了快两年 终于等来了公司项目的重构 新架构中版本控制工具用的是git 关于git我工作前期踩了几个坑 并导致了一些小问题 现在特记下正确的提交步骤 idea 在idea上使用git提交代码 首先pull 拉取代码也就是更新若是拉取没问题就
  • 2023电子信息工程毕设题目选题推荐

    文章目录 1前言 2 如何选题 3 选题方向 2 1 嵌入式开发方向 2 2 物联网方向 2 3 移动通信方向 2 4 人工智能方向 2 5 算法研究方向 2 6 移动应用开发方向 2 7 网络通信方向 3 4 学长作品展示 1前言 近期不
  • module ‘seaborn‘ has no attribute ‘histplot‘

    在jupyter notebook上 用seaborn画直方图的时候 遇到以下问题 解决方法 1 打开Anaconda Prompt 2 更新seaborn pip install U seaborn 3 关掉jupyter noteboo
  • Java连接数据库(自学笔记)

    一 六步骤 第一步 注册驱动 主要告诉Java程序连接哪种数据库 如MySql Orcale等 我自己连接的是MySql数据库 Driver driver new com mysql jdbc Driver DriverManager re
  • php7opcache使用,PHP7开启OPcache加速代码执行效率提升网站访问速度

    我们的网站访问速度是用户体念最重要的指标之一 网站内容再好打开速度过慢估计也是没有人愿意访问的 用wordpress企业主题搭建的网站常常有访问慢的问题 除了优化wordpress站内问题 服务器优化也是非常重要的 下面分享一个优化网站访问
  • 小程序成長之路_引入小程序自带icon 和 引用阿里图标(四)

    上篇我们已经成功填加tabBar 那么我们这篇就讲解一下 引用图标icon 小程序里有自己的图标供大家使用 但是图标有限 有很多都满足不了我们的需求 这次呢 给大家介绍一下阿里图标 里面有大量的图标供你选择 点击http www iconf
  • matlab 等间距抽稀算法

    目录 一 算法原理 1 原理概述 2 参考文献 二 代码实现 三 结果展示 一 算法原理 1 原理概述 等间距抽稀算法 在原始点云数据中设置采样间距为 n n n 首先在数据开始的 n n
  • 【Kubernetes资源篇】ConfigMap配置管理中心详解

    文章目录 一 ConfigMap配置中心理论知识 1 ConfigMap配置中心简介 2 ConfigMap局限性 二 创建ConfigMap的四种方式 1 第一种 通过命令行创建ConfigMap 2 第二种 通过指定文件创建Config
  • 蓝桥杯题库 算法提高非vip部分(C++、Java)代码实现(281-300)

    ADV 282 Island Hopping cpp include
  • 2021最新 Minecraft我的世界云服务器搭建教程

    一 购买服务器 熟练的朋友萌请跳过这里 首先我们先去al云或者tx云买个服务器 有学生优惠的话一年才120 当然最低配的单核2G 实测纯净服同时在线10个人无压力 这里以al云为例演示 首先 在搜索栏搜索学生优惠 点进去会是这样 然后我买的
  • 词的分布表示

    词的表示 One hot Representation 独热表示 苹果 表示为 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 优点 简介 缺点 词之间是孤立的 维数灾难 Distributed Representation