从零开始开发自己的类keras深度学习框架7：简易版word2vec

2023-11-17

认真学习，佛系更博。

前面几章基本介绍了全连接神经网络和卷积神经网络的原理已经开发过程，本章开始将写一些自然语言处理相关的知识。当然，自然处理领域的知识点比图像处理的要复杂、抽象，可能要花更多时间来研究。

首先，我们来了解一下word2vec，其目的是将一个个的词语编码成具体的向量，因为我们的深度学习模型是不能直接处理文本数据的。关于词向量的研究做了很多，目前流传较广泛的有以下几种：

基于字典的方法，比如大名鼎鼎的wordnet，人工成本较高、需要不断更新；
基于统计的方法，比如利用单词的马尔科夫分布式假设统计上下文单词，建立共现矩阵，然后降维，即可计算出词向量；缺点是计算量较高，对数据敏感；
基于推理的方法，word2vec就属于这种方法，下面将会详细介绍。

比如现在有一个句子：

I like basketball and you like football.

推理可以理解为根据上下文的数据，可以推理出当前数据的内容，比如给定第一个词I和第三个词basketball，模型应该能推理出like这个词语，这其实是一个比较复杂的问题，因为正确结果会有很多种，比如另一个句子为: I hate basketball while you like it. 事实上，word2vec正是利用了这种特性，从而学习到同义词的词向量应该具有相似性。比如下面一个例子：

the cat is running.

the dog is running.

加入我们的模型设计为从前3个词语推导下一个词语，即用the cat is和the dog is 推导出running，由于目标词一样，所以学习过程会认为dog和cat是含义较为接近的单词，所以词向量也会有某种相近的特性。

我们先来了解cbow模型，贴一个网上的图：

引用自博客：CBOW最强理解。

解释下，cbow是word2vec的一种模型，包含一个输入层、一个输出层以及一个隐藏层。这里千万不要把word2vec模型想的过于复杂，本质上是两个全连接层（没有bias），先看输入层->隐藏层，途中所画X1，X2....Xc为输出的词序列（一般为one_hot向量），每个词序列需要用权重模型进行全连接计算，然后生成c个输出向量，这c个向量做均值操作，处理为1维向量，该1维向量在和一个全连接矩阵作运算，得到输出值，然后误差计算，即可对整个模型进行优化，实际上也是一个端到端的神经网络模型。

注意，从输入层->隐藏层的模型实际上为1个，这个模型也是训练好之后作为计算词向量的特征提取器。

举个例子，I like basketball and you like football. 窗口为1，则输入数据->标签有这些： I basketball -> like, like and -> basketball, basketball you -> and, and like -> you, you football -> like。

这里省略最后的标点符号。我们取数据X1为"I", X2为"basketball"，先进行one_hot编码，然后将编码的向量分别和权重矩阵运算得到两个向量，两个向量值平均得到hidden layer的值，最后计算输出值，并和like编码的值作误差计算。

我们写了一个预处理数据的小工具，详情见enet.data.word_controller.py，主要是读取语料库然后生成上述的训练数据，调用代码为：

from enet.data import WordHandler


if __name__ == '__main__':

    word_handler = WordHandler(data_dir="text_data")

    data = word_handler.get_sequence()
    class_num = word_handler.get_dict_capacity()

    context, target = word_handler.extract_word_vec_cbow(window_size=1, input_one_hot=True, output_one_hot=True)

    print(data)
    print(context.shape, target.shape)

其中的context和target就是我们想要的训练数据，然后我们开始建立权重模型，分析一下，权重模型一共有两个，第一个权重模型的输入应该是3维数据，分别维batch、timestamp、one_hot，其中timestamp为某个单词上下文窗口对应的维度，输出应该是2维数据，为batch、hidden_feature，第二个模型类似，也可以设定这个维度值。但其实，这样设定会带来很多麻烦，因为word2vec还有另外一个模型：skip-gram，其模型结构和cbow相反，输入端有一个值，而输出端有多个值，这样的输入为3维输出为2维的权重结构将不适用，这里做一个适当的调整，我们设定输入端和输出端都是3维数据，后面将会看到这样设计的好处。

我们建立一个新的文件share_matmul.py，并写下共享权重层的代码：

from enet.layers.base_layer import Layer

import numpy as np

from enet.optimizer import optimizer_dict


class ShareMat(Layer):
    """
    用于word2vec训练的权重
    """

    def __init__(self, kernel_size=None, input_shape=None, optimizer="sgd", name=None, **k_args):
        """
        :param kernel_size: 神经元个数
        :param activation: 激活函数
        :param input_shape: 输入shape，只在输入层有效；
        :param optimizer: 优化器；
        :param name: 网络层名字
        """
        super(ShareMat, self).__init__(layer_type="share_mat")

        assert optimizer in {"sgd", "momentum", "adagrad", "adam", "rmsprop"}

        self.output_shape = kernel_size

        self.name = name
        # 该处的input_shape只在输入层有效,input_shape样式为(1000,)
        if input_shape:
            self.input_shape = input_shape[0]

        self.weight = None

        # self.use_bias = use_bias
        self.optimizer = optimizer_dict[optimizer](**k_args)

    def build(self, input_shape):
        """
        根据input_shape来构建网络模型参数
        :param input_shape: 输入形状
        :return: 无返回值
        """

        last_dim = input_shape
        self.input_shape = input_shape

        shape = (last_dim, self.output_shape)
        self.weight_shape = shape

        self.weight = self.add_weight(shape=shape, initializer="normal", node_num=input_shape)

    def forward(self, input_signal, *args, **k_args):
        """
        前向传播
        :param input_signal: 输入信息，3维数据例如32 * 2* 1000
        :return: 输出信号
        """
        self.cache = np.mean(input_signal, axis=-2, keepdims=True)

        # 每个输入之间要进行相加求平均；
        return np.dot(input_signal, self.weight)

    def backward(self, delta):
        """
        反向传播
        :param delta: 输入梯度
        :return: 误差回传
        """

        # if self.use_bias:
        #     delta_b = np.mean(delta, axis=0)
        # else:
        #     delta_b = 0

        if delta.shape[-2] != 1:
            delta = np.sum(delta, axis=-2, keepdims=True)

        delta_w = np.sum(np.matmul(self.cache.transpose((0, 2, 1)), delta), axis=0)

        self.optimizer.grand(delta_w=delta_w)

        # 回传给前一层的梯度
        return np.dot(delta, self.weight.transpose())

    def update(self, lr):
        """
        更新参数
        :param lr: 学习率
        :return:
        """
        delta_w = self.optimizer.get_delta_and_reset(lr, "delta_w")[0]

        self.weight += delta_w

做一个小的验证，当模型维skip-gram时，经过我们的代码输出端维度维batch, 1, one_hot，第二维只有一行数据，而标签可能有多个，而这样恰好可以利用numpy的广播机制方便地进行误差求解；当模型为cbow时，输入端有多个timestamp的数据，我们应该先作矩阵运算然后求平均，或者先作平均在作矩阵运算（因为矩阵运算满足结合律），正如我们在forward里写的代码。这样，我们的共享权重层输入和输出数据都为3维，适用于cbow和skip-gram模型。

另外需要注意的是，输出标签也应该是3维的，正如我们在word_controller里写的。

至此我们可以来跑一下cbow和skip-gram的代码：

from enet.layers import ShareMat, Embedding
from enet.model import Sequential

from enet.data import WordHandler


if __name__ == '__main__':

    word_handler = WordHandler(data_dir="text_data")

    data = word_handler.get_sequence()
    class_num = word_handler.get_dict_capacity()

    context, target = word_handler.extract_word_vec_cbow(window_size=1, input_one_hot=True, output_one_hot=True)

    print(data)
    print(context.shape, target.shape)

    model = Sequential()
    model.add(ShareMat(input_shape=(class_num, ), kernel_size=100, name="word_vec"))
    model.add(ShareMat(kernel_size=class_num))

    model.compile(loss="cross_entropy")

    model.fit(target, context, epoch=1000, acc=False)

    sub_weight = model.get_sub_kernel(layer_name="word_vec")
    print(sub_weight[0])

训练过程中将会看到误差在慢慢减小。

上面为cbow的模型，直接将model.fit里的前两个参数位置调换即为skip-gram模型。这里提一点，一般来说，skip-gram的效果要比cbow好。

我们也增加了一点sequential的功能，可以直接根据网络名获取某层的权重（另外也实现了获取某些层的功能）。见上述代码。

说明一点，真正的word2vec功能比这个要复杂很多，这里实现的word2vec存在的主要问题是当数据量增大时，矩阵运算会消耗非常多的时间，而这些时间是没必要的，观察一下网络的输入端，每个向量都是一个one_hot向量，与矩阵进行矩阵运算，其结果就是矩阵的某一行。先抛出这个观点吧，下一章实现embedding层时会详细讲一下。

整个代码的github网址为：https://github.com/darkwhale/neural_network，不断更新中；

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

神经网络

深度学习

从零开始开发自己的类keras深度学习框架7：简易版word2vec 的相关文章

嵌入式的七种接口

我们将简要介绍七个串行接口 SIO UART SSP SPI I2C CAN USB和EtherMAC 虽然每个接口都有几个不同的操作模式但我们只介绍一个典型的模式因此本文的解释不适用于其它操作模式摘自东芝 SIO 串行输入输出最
Nginx使用多个.conf文件配置虚拟主机server

使用 Nginx 配置多个虚拟机 server 服务通常做法可以直接在 nginx conf 文件中添加即可如下事例 nginx conf worker processes 1 events worker connections 102
Eva 剧情解析

Eva 剧情解析来源 https zhuanlan zhihu com p 20864898 0 写在前面的话相信和我年龄差不多的小伙伴们对新世纪福音战士 Neon Genesis Evangelion 以下简称 EVA 一定不陌生
动画中英文对照表（09.24）

ID 英语名中文名作者日语名1 hack Legend of Twilight s Bracelet hack 黄昏的腕轮传说 2 hack Liminality in case of AIHARA Yuki hack OVA版 3

随机推荐

【分类模型评价】宏平均（macro avg）、微平均(micro avg)和加权平均(weighted avg)

当我们使用 sklearn metric classification report 工具对模型的测试结果进行评价时会输出如下结果对于精准率 precision 召回率 recall f1 score 他们的计算方法很多地方都有介绍
Scratch中的坐标系

Scratch中的坐标系即普通的平面坐标系其中水平方向为x轴竖直方向为y轴 x轴与y轴交点为 0 0 点 x轴正方向为水平向右 y轴正方向为竖直向上舞台默认大小为宽480 高360 其中x轴范围是 240 240 y轴范围是 180
该产品与此版 VMware Workstation 不兼容，因此无法使用

目录 VMware虚拟机开机报错解决错误 VMware虚拟机开机报错配置文件 D Users tyn Documents Virtual Machines Ubuntu16 的克隆 Ubuntu16 的克隆 vmx 是由 VMware
intellij idea开发环境下使用jetty跑项目修改js、jsp文件提示Cannot Save Files 问题

问题描述如题试了好久终于找到解决办法记录下来与大家分享 1 首先进入你的maven仓库找到jetty的位置我的位置在 C Users ccpit m2 repository org mortbay 供大家参考 2 进入jetty目录
DrawerLayout+ToolBar

ToolBar自定义图标关联DrawerLayout http blog csdn net static zh article details 52621240 Android侧滑菜单DrawerLayout的使用 http blog c
（休息几天）读曼昆之微观经济学——供给需求和政府政策

1价格上限的短期效应和长期效应价格上限的一个常见例子是租金管制在很多城市当地政府部门规定了房东对租房者索要的最高价格上限该政策的目的是帮助穷人能租得起房子经济学家通常痛批租金管制政策认为它是一种非常缺乏效率的帮助穷人提高他们生活
QT信号与槽机制解析

信号 Signal 与槽 Slot 是Qt编程的基础有了信号与槽的编程机制在Qt中处理界面各个组件的交互操作时变得更加直观和简单 GUI程序设计的主要内容就是对界面上各组件的信号的响应只需要知道什么情况下发射哪些信号合理地去响应和处
持续增加时间价值30条

今天分享阅读时间价值第一章时的笔记持续增加时间价值30条 1 当你认为时间在帮助自己的时候就觉得他是自己的朋友当你有了要做的事情当你在确定的方向上往前走那么时间是在累积我们的成果就是在帮我们的忙 2 在大的时间面前不要做太小
[深入研究4G/5G/6G专题-45]: 5G Link Adaption链路自适应-1-总体架构

目录第1章链路自适应技术概述 1 1 概述 1 2 链路自适应技术的类型 1 3 基本概念
电信行业BOSS系统

BOSS系统是Business Operation Support System的简称即业务运营支撑系统通常所说的BOSS系统分为四个部分计费及结算系统营业与账务系统客户服务系统和决策支持系统 BOSS系统从业务层面来看就是一个
什么是 JSONP？

前言首先我们得先了解JSONP是怎么产生的最开始跨域请求数据没有现在方便 Ajax直接请求普通文件存在跨域无权限访问的问题然后聪明的程序员想出了一套非官方的解决办法程序员发现凡是带有 src 这个属性的标签都拥有跨域的能力比如 l
自媒体创作审核不通过怎么办？教你一个小技巧，提高效率

自媒体人是不是会遇到平台审核内容不通过的时候遇到这个问题你是怎么解决的呢是不是修改内容提交还是不通过今天教你一个小技巧快速解决内容审核不通过的问题提高发稿效率很多自媒体新手不知道稿件还能不能进行质量检测所以有时候写的自媒体
[深入研究4G/5G/6G专题-24]: 5G NR开机流程4.2 - 随机接入应答消息MSG2的调度过程与上行同步、时间提前量TA通过PDSCH信道下发

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址目录前言前置条件第1章随机接入知识准备
UNIAPP中文字上下左右居中

效果 index vue
Flutter drawer侧滑栏实现

侧滑栏对于大部分App来说都是经常用到的接下来我们来一步步的实现flutter的侧滑栏效果这里需要使用flutter提供的 Drawer和DrawerHeader控件 DrawerHeader通常用作侧滑栏的头部控件比如用户头像等 D
Vulnhub之Me-and-My-Girlfriend

Vulnhub是一个很好的靶机平台想看官网点这里今天学习Me and My Girlfriend 点击这里下载哦这个比较简单入门学习 VMware和VirtualBox都可以导入成功后如图这里修改连接为NAT模式然后就开始玩耍
Mybatis使用datetimepicker日期和时间插件查询时间范围

使用说明 collectStartDate和setStartDate类型为Date 对应的创建时间在mysql中为varchar类型一下载和引入datetimepicker样式和js 二页面代码 li li
ORA-12514: TNS:listener does not currently know of service requested in connect descriptor 已解决

今天用Navicat Premium 连接 Oracle时报错了报错信息 ORA 12514 TNS listener does not currently know of service requested in connect des
linux压缩文件夹命令 tar_每天一个Linux系统命令｜tar

名称 tar命令是Linux系统下最常用的打包命令它不但可以对文件或者文件夹打包还可以打包的时候同时压缩文件用法描述 tar 选项目标文件源文件压缩 tar 选项压缩文件解压选项描述如下是该命令的一些选项按照使用频率进
从零开始开发自己的类keras深度学习框架7：简易版word2vec

认真学习佛系更博前面几章基本介绍了全连接神经网络和卷积神经网络的原理已经开发过程本章开始将写一些自然语言处理相关的知识当然自然处理领域的知识点比图像处理的要复杂抽象可能要花更多时间来研究首先我们来了解一下word2vec

从零开始开发自己的类keras深度学习框架7：简易版word2vec

从零开始开发自己的类keras深度学习框架7：简易版word2vec 的相关文章

随机推荐

热门标签