vc++画线段的函数_word2vec的损失函数

2023-11-18

虽然word2vec常被当作无监督，但是其训练过程跟有监督基本差不多，原始的word2vec暂时不考虑负采样和huffman tree，其损失函数就是多元交叉熵：

多元交叉熵的公式：

以传统机器学习来说，这里的Zj就是某个类别的预测概率，yj=0或者1，我们假设有3个类别，模型对样本A的预测结果为[0.2,0.5,0.3]，A的实际标签为[0,1,0]，则仅仅计算中间为1的那一项（其实就是样本对应的真实类别单独计算一下损失，每一个样本计算的过程中对于单输出问题都是计算一次就行）

则

以cbow为例，

简单理解就是求平均（也可以是求和，gensim里的设计是两种方式都进行了实现）之后的结果【0.23,0.03,0.62,0.12......】经过输出层映射为一个v维的一维矩阵（v是词的数量）要和真实的标签【0，0，0，1，0，0，0.。。】尽量接近；这里ui表示的是输出层，vc表示的是平均之后的向量，他们的乘积加上softmax函数就是word2vec的模型的最终预测结果；

因此可以认为是一个超级多分类模型，类别的数量就是词（去重）的数量；

app2vec的加权体现在这个地方，根据不同的不同的app的gap来对不同的样本进行加权，具体可见我写的app2vec的论文分析在自然语言处理的专栏里；

然后是采用了huffman tree对其进行优化（类别太多用原始的多元交叉熵算死）

huffman tree是一种非线性的数据结构，其建树流程如下：

具体的例子如下：

生成了huffman tree，我们就可以进行愉快的huffman 编码了：

下面我们就针对cbow和skip gram的huffman编码模式进行解释：

可以看到，加入了huffman tree之后，原来的输出层由线性结构变成了树形结构，本来输出层是一个V行的输出（V代表词库的词的总数量），现在变成了一个树型结构，这个树的所有叶子节点的数量为V，即一个节点代表了一个词；那么为什么要这么设计呢？

以一个实际的例子来进行说明，假设此时我们的中心词是足球，那么从projection layer出来我们要经过四次分支才能到达上图中足球所对应的叶子节点，如上图，原始的huffman tree是将左枝叶定义为1，右枝定义为0，而word2vec将左枝定义为0，右枝定义为1，因此在w2v中，分到左枝就当作负类，分到右枝就当作正类，这里每一个节点都对应一个sigmoid变换；即，当Xw进入左枝的时候，则其被分为负类，对应的概率值为：

其中

表示sigmoid函数，Xw表示windows中的词的embedding的求和（或求平均）的结果向量，

表示当前节点对应的待训练的参数（没错，每一个节点都有一个w维的待训练参数（w表示的是embedding的维度大小）），反之如果被分为正类，则其对应的概率值为：

那么

这里的context指的是足球对应的windows内的上下文；

最终其目标函数的形式为：

w属于C表示对词表C中的每一个词w进行一次后面的运算；

lw表示词在huffman tree中对应的路径，那么Huffman tree（或者说分层softmax或者hierarchical softmax）是怎么起到优化性能的作用呢？

还是以上面的这个足球的例子为例，假设我们不适用huffman tree而是使用了原始的softmax：

则对应的“足球”作为中心词的单个样本其损失函数的计算过程中，分母部分要进行W次的累加（这里的W表示词库中词的数量），这还仅仅是一个词作为中心词的结果，可想而知，一轮训练下来非常的耗费时间，但是如果使用huffman tree，如上图，我们对于足球的计算只需要：

进行4次的sigmoid的计算，大大降低了计算的复杂度；

这里也可以很简单的实现样本加权的功能，在第一个求和符号后面添加一个权重函数就可以了；

而对于skip gram的分层softmax其结构如图：

对应的目标函数为：

可以看到，还是一个多输出的结构，在目标函数上的体现就是对多个输出对应的目标函数进行累加也就是这一项：

剩下的优化就交给梯度下降法和自动梯度求导的工具上吧~

接下来就介绍一个非常重要的优化手段，也是目前非常常用的一个构造伪正负样本的方法，negtive sampling（简称neg）是nce（noice constractive estimation）的简化版本，关于nce的研究可见：

磊爷：[译] Noise Contrastive Estimationzhuanlan.zhihu.com

这里暂时不那么深入去研究了；

关于负采样：

word2vec原理(三) 基于Negative Sampling的模型www.cnblogs.com

刘大佬的blog写的很通俗易懂；

比如我们有一个训练样本，中心词是w,它周围上下文共有2c个词，记为context(w)。由于这个中心词w,的确和context(w)在实际语料中真实存在，因此它是一个真实的正例。通过Negative Sampling采样，我们得到neg个和w不同的中心词wi,i=1,2,..neg，这样context(w)和wi们就组成了neg个并不真实存在的负例。利用这一个正例和neg个负例，我们进行二元逻辑回归，得到负采样对应每个词wi对应的模型参数θi和每个词的词向量。

　　　　从上面的描述可以看出，Negative Sampling由于没有采用霍夫曼树，每次只是通过采样neg个不同的中心词做负例，就可以训练模型，因此整个过程要比Hierarchical Softmax简单。

这个思路其实是非常灵活的，它可以本身无监督的问题转化为类似有监督的问题，这种方法在很多地方都有其应用；

当然，这里的负采样不是简单的随机采样，word2vec采样的方法并不复杂，如果词汇表的大小为V,那么我们就将一段长度为1的线段分成V份，每份对应词汇表中的一个词。当然每个词对应的线段长度是不一样的，高频词对应的线段长，低频词对应的线段短。每个词w的线段长度由下式决定：

在word2vec中，分子和分母都取了3/4次幂如下：

（作者实验测试的效果）

在采样前，我们将这段长度为1的线段划分成MM等份，这里M>>V，这样可以保证每个词对应的线段都会划分成对应的小块。而M份中的每一份都会落在某一个词对应的线段上。在采样的时候，我们只需要从M个位置中采样出neg个位置就行，此时采样到的每一个位置对应到的线段所属的词就是我们的负例词。在word2vec中，M取值默认为10^8;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

vc画线段的函数

vc++画线段的函数_word2vec的损失函数的相关文章

转使用Android Studio 创建第一个Android 应用

转自 https blog csdn net u013926216 article details 81977815 一使用Android Studio 开发Android 应用的流程二一个简单的登陆界面程序程序功能说明创建And
有关win10的C:/ProgramFiles\WindowsApps\文件系统错误（12007）问题

win10电脑开机的时候突然出现这二个系统错误 C ProgramFiles WindowsApps b9eced6f asusbatteryhealthcharging 1 0 7 0 86 qmba6 以及 C ProgramFile
mysql 如何转换数据结构_如何将SQL查询结果转换为PANDAS数据结构？

在这个问题上的任何帮助将不胜感激所以基本上我想对我的SQL数据库运行查询并将返回的数据存储为Pandas数据结构我已附上查询代码我正在阅读有关Pandas的文档但是在识别查询的返回类型时遇到了问题我试图打印查询结果但没有提供任何
从零开始用C语言实现图片解码播放器(有源码)

1 项目描述 1 1 项目硬件平台介绍 1 硬件平台九鼎公司的X210开发板 S5PV210 Cortex A8内核 2 软件平台 linux2 6 35 7内核直接基于linux API操作 1 2 项目功能介绍 1 调用编译好的可执
java---模块化

模块的基本使用模块的基本使用步骤创建模块按照以前的讲解方式创建模块创建包创建类定义方法为了体现模块的使用我们创建2个模块一个是myOne 一个是myTwo 在模块的src目录下新建一个名为module info java的
hard_socnet靶机（vulnhub）

这个靶机的难度很高慢慢摸索接触新知识首先这个靶机是2020 年的我们如今2022年 2021出现了新的内核漏洞 CVE 2021 3493 我们这里可以利用也成功了但是如果我们就在2020做此靶机怎么办呢这里分享了两种打靶思
c#文件名去掉后缀_C# 怎么去掉文件名后缀

public class test private static List getData String path List list new ArrayList lt gt try File f new File path File fs
FairGUI 坐标和Unity坐标转换

一 FairGUI教程文档 https www bookstack cn read fairygui unity md 坐标系统坐标原点 FairyGUI是以屏幕左上角为原点的 Unity的屏幕坐标是以左下角为原点的一般这个转换都不需要
CNN卷积神经网络实现手写数字识别（基于tensorflow）

1 1卷积神经网络简介文章目录 1 1卷积神经网络简介 1 2 神经网络 1 2 1 神经元模型 1 2 2 神经网络模型 1 3 卷积神经网络 1 3 1卷积的概念 1 3 2 卷积的计算过程 1 3 3 感受野 1 3 4 步长和参数
python3_面向对象

面向对象魔术方法描述器Descriptors 槽位slots 面向对象 OOP Object Oriented Programing 面向对象是认识世界的一种方法论一切皆对象类class 抽象的概念一类具有共同特征的事物的集合用
51单片机学习之旅[3] 中断-定时器

中断就是单片机main运行的时候如果外部传来一个信号那么就暂时停止现在的正在处理的事情转而去处理这个信号处理这个信号完毕以后又返回去main去继续处理之前的有个比较好的例子是你正在晾衣服你正在晾衣服突然水烧开了你
文件IO(三.文件属性和目录)

1 文件截短 truncate NAME truncate ftruncate truncate a file to a specified length truncate ftruncate用来把文件截短到指定的长度 SYNOPSIS i
2021-03-30

远程调试使用特定JVM参数运行服务端代码要让远程服务器运行的代码支持远程调试则启动的时候必须加上特定的JVM参数这些参数是 Xdebug Xrunjdwp transport dt socket suspend n server y
全屏Activity弹出键盘不顶起布局

最近遇到的一个问题是全屏Activity中要求弹出键盘不顶起布局首先windowSoftInputMode的取值是有多个的在全屏场景下adjustPan是没有用的需要使用adjustResize首先确保键盘不顶起布局 android
黑苹果 MacOS 10.15 Catalina 安装详细教程带工具资料

图文教程悦享地址点击打开链接视频教程 B站地址点击打开链接一准备工作一个8G以上的U盘有的U盘标的是8G 实际只有X 实际容量小于7 5G的会失败 MacOS镜像 TransMac 刻录工具 DiskGenius 分区工具 E
机器学习DGA域名检测

恶意域名恶意域名是指黑客在攻击过程中或者对目标网络实施控制时使用dga算法生成的域名这种域名通常硬编码在恶意软件中我们在做流量分析时不仅要通过流量的指纹特征识别威胁也可以通过检测是否解析了恶意域名来判断网络中是否存在肉鸡传统DG
IDEA编译报错：java: 未报告的异常错误X；必须对其进行捕获或声明以便抛出

IDEA编译Flink源码时报错 java 未报告的异常错误X 必须对其进行捕获或声明以便抛出原因是环境变量配置的是JDK8 Flink部分代码是基于JDK11编写的将JDK升级为JDK11 重新编译即成功
推荐一款基于XNA的开源游戏引擎《Engine Nine》

一前沿导读 XNA是微软基于 Net部署的下一代3D 2D游戏开发框架其实XNA严格来说类似下一代的DirectX 当然不是说XNA会取代DirectX 但是基于XNA我们对于面向XBOX360 WP等系列其他平台的移植成本非常的低据
从系统里面查看服务器端口,从系统里面查看服务器端口号

从系统里面查看服务器端口号内容精选换一换已成功登录Java性能分析待安装分析辅助软件的服务器已开启sshd 已安装JDK并配置环境变量打开添加目标环境窗口如图1所示参数说明如表1所示添加目标环境添加目标环境参数说明参数说

随机推荐

shell脚本简介+编写

1 常用Linux命令 2 Linux下脚本编写 3 windows下CMD常用命令文章目录一变量 1 系统预定义变量 2 自定义变量 3 特殊变量 n n n
C++ 标准库函数 bind

背景可调用对象对于一个对象或者一个表达式如果可以对其使用调用运算符则称为可调用对象调用形式一种调用形式对应了一个函数类型指明了调用返回类型以及传递的参数类型比如 int int int std bind 概念可将 bind
勇于尝试新鲜事物，利于项目来积累学习经验

很多人都会根据企业的发展需求再选择自己的开发方向其实没必要完全根据企业的发展路线来决定的个人的职业路线正如黑客与画家和黑客帝国所表达的程序员应该将白天的工作作为一种职业相关性的经验积累而将晚上的时间用于尝试新的技术和领域
matlab 学习算法,matlab深度学习算法合集

实例简介 CAE CNN NN SAE等等matlab版深度学习算法合集以及相关测试数据拿到就能直接用实例截图核心代码 DeepLearnToolbox matlab DeepLearnToolbox CAE caeapplygra
java中空值怎么表示_JAVA中空值null与字符串null含义的区分

java中字符串型的量如 String s 初始化为空时 s null 打印出来为null 但是对他不能进行 isEmpty 和 length 的操作会抛出空指针异常给他们后边添加字符串后 s s yuanyuan 打印时前边会保留n
2019年全国一二线城市程序员工资大调查

我在4月1日到3日之间抓取了某招聘网站的软件和互联网类招聘数据40万条其中通过程序判断为程序员的14万条地域方面我选择了24个主要城市这里的程序员包括普通程序员架构师和算法工程师美工等不计算在内这点和2017年不同如果你只
ftp

1 ftp上传文件 1 1相关依赖
OpenMMLab_0【简介】

1 项目动机统一的深度学习框架统一的算法框架和生态自2018年开源以来已经能够实现很多算法 2 总体现状 3 总体框架概览 3 1 算法训练部署一体化 3 2 算法框架介绍 MMDetection MMDetection3D 7 个
Bootstrap入门（一）

前言大家好我是九歌今天我要分享的内容是Bootstrap的入门首先老规矩先上思维导图提示以下是本篇文章正文内容下面案例可供参考一 Bootstrap 学习一门新的技术我们终究都逃不过三个W What Why Where 1
Vue3.0

teleport Teleport 提供了一种干净的方法允许我们控制在 DOM 中哪个父节点下呈现 HTML 而不必求助于全局状态或将其拆分为两个组件
《C++ Primer》学习笔记（十五）：面向对象编程

C Primer 学习笔记十五面向对象编程抽象基类访问控制与继承构造函数与拷贝控制文本查询程序再探练习面向对象编程的核心思想是数据抽象继承和动态绑定在C 语言中当我们使用基类的引用或指针调用一个虚函数时将发生动态绑
python跟易语言的爬虫_用易语言写个简单的小爬虫其中的关键点

一请求头 ctrl L快捷键创建变量变量名类型协议参数类 POST数据类请求头数据文本型协议参数添加 v 4 52 0 请求头数据协议参数获取协议头数据二请求参数比如post 变量名类型请求data参数类 P
【负荷预测】基于神经网络的负荷预测和价格预测（Matlab代码实现）

目录 1 概述 2 基于神经网络的负荷预测 Matlab实现 2 1 代码 2 2 结果 2 3 回归树模型的进一步改进 3 基于神经网络的价格预测 Matlab代码实现 4 阅读全文 Matlab代码 1 概述这个例子演示了用MATLA
《软件调试的艺术》学习笔记——GDB使用技巧摘要(3)——程序崩溃处理

程序为什么会崩溃内存中的程序布局当某个错误导致程序突然和异常地停止执行时程序崩溃迄今为止最为常见的导致程序崩溃的原因是试图在未经允许的情况下访问一个内存位置硬件会感知这件事并执行对操作系统的跳转 Unix系列的平台上操作系统一
VS2015下用Qt Designer创建对话框

目录 1 Qt Designer新建文件选择适合的模板布局窗口 2 在右侧属性窗口修改名称为需要的名称 3 文件另存为对象名称一样的xxx ui文件 4 创建xxx cpp和xxx h文件加入工程也可以在qt creator中创建
sql-labs闯关38~45

sql labs闯关38 45 友善爱国平等诚信民主友善爱国爱国友善平等诚信自由平等友善平等法治诚信民主民主复习笔记1 内容 sql labs第38关 GET请求堆叠查询注入字符型 sql labs第39关 GET请求堆叠查询注入
30分钟从零开始搭建并部署个人知识库（超详细）

前言网上关于动态文档生成工具有很多如 Docsify VuePress Docute Hexo这些都是一些非常优秀的文档生成工具本章主要介绍如何快速使用Docsify搭建一个快捷轻量级的个人团队文档并且通过Github Pages
dracut 基本介绍

dracut 基本介绍 dracut 维基 https dracut wiki kernel org index php Main Page http www 360doc com content 13 0428 09 12139495 2
计算机网络系列五 -- 运输层详解

1 运输层 1 1 运输层的定义运输层是 OSI 七层参考模型的第四层主要功能为应用层提供通信服务它即是面向通信的最高层也是用户功能的最底层在计算机网络中真正进行数据通信的是两个主机的进程由于一个主机中有多个进程同时在通信而
vc++画线段的函数_word2vec的损失函数

虽然word2vec常被当作无监督但是其训练过程跟有监督基本差不多原始的word2vec暂时不考虑负采样和huffman tree 其损失函数就是多元交叉熵多元交叉熵的公式以传统机器学习来说这里的Zj就是某个类别的预测概率 yj

vc++画线段的函数_word2vec的损失函数

vc++画线段的函数_word2vec的损失函数 的相关文章

随机推荐

热门标签

vc++画线段的函数_word2vec的损失函数的相关文章