验证 Transformer 中多头注意力的实现

2024-05-20

我已经实施了MultiAttention head in Transformers。周围有太多的实现，所以很混乱。有人可以验证我的实施是否正确：

DotProductAttention 引用自：https://www.tensorflow.org/tutorials/text/transformer#setup https://www.tensorflow.org/tutorials/text/transformer#setup

import tensorflow as tf

def scaled_dot_product(q,k,v):
    #calculates Q . K(transpose)
    qkt = tf.matmul(q,k,transpose_b=True)
    #caculates scaling factor
    dk = tf.math.sqrt(tf.cast(q.shape[-1],dtype=tf.float32))
    scaled_qkt = qkt/dk
    softmax = tf.nn.softmax(scaled_qkt,axis=-1)
    
    z = tf.matmul(softmax,v)
    #shape: (m,Tx,depth), same shape as q,k,v
    return z

class MultiAttention(tf.keras.layers.Layer):
    def __init__(self,d_model,num_of_heads):
        super(MultiAttention,self).__init__()
        self.d_model = d_model
        self.num_of_heads = num_of_heads
        self.depth = d_model//num_of_heads
        self.wq = [tf.keras.layers.Dense(self.depth) for i in range(num_of_heads)]
        self.wk = [tf.keras.layers.Dense(self.depth) for i in range(num_of_heads)]
        self.wv = [tf.keras.layers.Dense(self.depth) for i in range(num_of_heads)]
        self.wo = tf.keras.layers.Dense(d_model)
        
    def call(self,x):
        
        multi_attn = []
        for i in range(self.num_of_heads):
            Q = self.wq[i](x)
            K = self.wk[i](x)
            V = self.wv[i](x)
            multi_attn.append(scaled_dot_product(Q,K,V))
            
        multi_head = tf.concat(multi_attn,axis=-1)
        multi_head_attention = self.wo(multi_head)
        return multi_head_attention

#Calling the attention 
multi = MultiAttention(d_model=512,num_of_heads=8)
m = 5; sequence_length = 4; word_embedding_dim = 512
sample_ip = tf.constant(tf.random.normal(shape=(m,sequence_length,word_embedding_dim)))
attn =multi(sample_ip)
#shape of op (attn): (5,4,512)

在您的实施中，scaled_dot_product你缩放了query但根据原始论文，他们使用了key正常化。除此之外，这个实现看起来不错，但不通用。

class MultiAttention(tf.keras.layers.Layer):
    def __init__(self, num_of_heads, out_dim):
        super(MultiAttention,self).__init__()
        self.out_dim      = out_dim
        self.num_of_heads = num_of_heads
        self.depth        = self.out_dim // self.num_of_heads
        self.wq = [tf.keras.layers.Dense(self.depth) for i in range(num_of_heads)]
        self.wk = [tf.keras.layers.Dense(self.depth) for i in range(num_of_heads)]
        self.wv = [tf.keras.layers.Dense(self.depth) for i in range(num_of_heads)]
        self.wo = tf.keras.layers.Dense(self.out_dim)
        
    def call(self,x):
        multi_attn = []
        for i in range(self.num_of_heads):
            Q = self.wq[i](x)
            K = self.wk[i](x)
            V = self.wv[i](x)
            multi_attn.append(self.scaled_dot_product(Q,K,V))

        multi_head = tf.concat(multi_attn, axis=-1)
        multi_head_attention = self.wo(multi_head)
        return multi_head_attention

    def scaled_dot_product(self, q,k,v):
        qkt = tf.matmul(q, k, transpose_b=True)
        dk = tf.math.sqrt( tf.cast(k.shape[-1], dtype=tf.float32) )
        scaled_qkt = qkt/dk
        softmax = tf.nn.softmax(scaled_qkt, axis=-1)
        z = tf.matmul(softmax, v)
        return z

multi = MultiAttention(num_of_heads=3, out_dim=32)
sample_ip = tf.random.normal(shape=(2, 2, 32)); print(sample_ip.shape)
multi(sample_ip).shape

一般变压器架构可以如下所示，其中前两个线性层代表query and key并负责生产注意力权重图然后加权value以矩阵乘法的方式。

图片来源 https://www.youtube.com/watch?v=mMa2PmYJlCo.

我知道您正在尝试最小化原始 TF教程代码 https://www.tensorflow.org/tutorials/text/transformer但我认为你应该首先添加对你原来问题的参考。在最初的实现中，他们还返回了加权概率或分数随着加权特征图。我认为你不应该跳过它。

The 原始代码 https://www.tensorflow.org/tutorials/text/transformer您所关注的是更通用和高效的优化。

class MultiHeadAttention(tf.keras.layers.Layer):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        self.num_heads = num_heads
        self.d_model = d_model
        assert d_model % self.num_heads == 0
        self.depth = d_model // self.num_heads
        self.wq = tf.keras.layers.Dense(d_model)
        self.wk = tf.keras.layers.Dense(d_model)
        self.wv = tf.keras.layers.Dense(d_model)
        self.dense = tf.keras.layers.Dense(d_model)

    def scaled_dot_product_attention(self, q, k, v, mask=None):
        matmul_qk = tf.matmul(q, k, transpose_b=True)  # (..., seq_len_q, seq_len_k)
        # scale matmul_qk
        dk = tf.cast(tf.shape(k)[-1], tf.float32)
        scaled_attention_logits = matmul_qk / tf.math.sqrt(dk)
        # add the mask to the scaled tensor.
        if mask is not None: scaled_attention_logits += (mask * -1e9)
        # softmax is normalized on the last axis (seq_len_k) so that the scores
        # add up to 1.
        attention_weights = tf.nn.softmax(scaled_attention_logits, axis=-1)  # (..., seq_len_q, seq_len_k)
        output = tf.matmul(attention_weights, v)  # (..., seq_len_q, depth_v)
        return output, attention_weights

    def split_heads(self, x, batch_size):
        """Split the last dimension into (num_heads, depth).
        Transpose the result such that the shape is (batch_size, num_heads, seq_len, depth)
        """
        x = tf.reshape(x, (batch_size, -1, self.num_heads, self.depth))
        return tf.transpose(x, perm=[0, 2, 1, 3])

    def call(self, v, k, q, mask=None):
        batch_size = tf.shape(q)[0]
        q = self.wq(q)  # (batch_size, seq_len, d_model)
        k = self.wk(k)  # (batch_size, seq_len, d_model)
        v = self.wv(v)  # (batch_size, seq_len, d_model)

        q = self.split_heads(q, batch_size)  # (batch_size, num_heads, seq_len_q, depth)
        k = self.split_heads(k, batch_size)  # (batch_size, num_heads, seq_len_k, depth)
        v = self.split_heads(v, batch_size)  # (batch_size, num_heads, seq_len_v, depth)
        # scaled_attention.shape == (batch_size, num_heads, seq_len_q, depth)
        # attention_weights.shape == (batch_size, num_heads, seq_len_q, seq_len_k)
        scaled_attention, attention_weights = self.scaled_dot_product_attention(q, k, v, mask)

        scaled_attention = tf.transpose(scaled_attention, perm=[0, 2, 1, 3])  # (batch_size, seq_len_q, num_heads, depth)
        concat_attention = tf.reshape(scaled_attention,  (batch_size, -1, self.d_model))  # (batch_size, seq_len_q, d_model)
        output = self.dense(concat_attention)  # (batch_size, seq_len_q, d_model)
        return output, attention_weights

FYI, in TF 2.4, the tf.keras.layers.MultiHeadAttention https://www.tensorflow.org/api_docs/python/tf/keras/layers/MultiHeadAttention图层正式添加。

layer = tf.keras.layers.MultiHeadAttention(num_heads=2, key_dim=2)
input_tensor = tf.keras.Input(shape=[2, 2, 32]); print(input_tensor.shape)
print(layer(input_tensor, input_tensor).shape)

您可以按如下方式测试这两个：

# custom layer MHA
multi = MultiHeadAttention(d_model=512, num_heads=2)
y = tf.random.uniform((1, 60, 512))  
out, attn = multi(y, k=y, q=y, mask=None)
out.shape, attn.shape
(TensorShape([1, 60, 512]), TensorShape([1, 2, 60, 60]))

# built-in layer 
layer = tf.keras.layers.MultiHeadAttention(num_heads=2, key_dim=2)
y = tf.random.uniform((1, 60, 512))  
out, attn = layer(y, y, return_attention_scores=True)
out.shape, attn.shape
(TensorShape([1, 60, 512]), TensorShape([1, 2, 60, 60]))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

验证 Transformer 中多头注意力的实现的相关文章

用于测试张量流安装的速度基准

我怀疑我的 GPU 机器上是否正确配置了张量流因为在我精美的 GPU 机器上训练一个简单的线性回归模型批量大小 32 1500 个输入特征 150 个输出变量的每次迭代速度比在笔记本电脑上慢 100 倍我使用的是 Titan X 配
Tensorboard 和 Dropout 层

我有一个非常基本的查询我制作了 4 个几乎相同差异在于输入形状的 CNN 并在连接到全连接层的前馈网络时合并了它们几乎相同的 CNN 的代码 model3 Sequential model3 add Convolution2D 32
使用 Keras 时，验证集中未见的类别会出现错误

我有由数值变量和分类变量组成的数据分类变量有很多类别因此我使用嵌入来表示这些类别我的模型是一个简单的神经网络我知道当你定义嵌入层时你需要通过input dim number of categories 1为了解释训练中看不见的类别
从 Keras 检查点加载

我正在 Keras 中训练一个模型我使用以下代码保存了所有内容 filepath project model hdh5 checkpoint ModelCheckpoint project model hdf5 monitor loss
根据caffe中的“badness”缩放损失值

我想根据训练期间当前预测与正确标签的接近远近来缩放每个图像的损失值例如如果正确的标签是猫而网络认为它是狗那么惩罚损失应该小于网络认为它是汽车的情况我正在做的方式如下 1 我定义了标签之间距离的矩阵 2 将该矩
通过 cmake 使用预编译的张量流

我已经建立了一个 C 项目CLion使用CMake 我正在使用各种第三方库并且还想集成张量流我试过了bazel编译张量流到共享库libtensorflow so哪种工作有效但是仍然有相当多的依赖项例如当前的 protobuf 版本
如何在 Tensorflow 中使用预训练的 Word2Vec 模型

我有一个Word2Vec训练过的模型Gensim 我如何使用它Tensorflow for Word Embeddings 我不想在 Tensorflow 中从头开始训练嵌入有人可以告诉我如何用一些示例代码来做到这一点吗假设您有一个字典
Tensorflow如何生成不平衡组合数据集

我对新数据集 API tensorflow 1 4 有疑问我有两个数据集我需要创建一个组合的不平衡数据集即每个批次应包含第一个数据集中一定数量的元素和第二个数据集中一定数量的元素例如 dataset1 tf data Datase
Tensorflow：尽管数据中没有字符串，但使用 tflearn 时不支持将字符串转换为浮点数错误

我似乎无法在我的代码中找到错误其中有任何字符串被错误地转换为浮点数但它却给了我这个错误 W tensorflow core framework op kernel cc 958 Unimplemented Cast string to
如何强制tensorflow使用所有可用的GPU？

我有一个 8 GPU 集群当我运行Kaggle 的一段 Tensorflow 代码 https www kaggle com keegil keras u net starter lb 0 277 scriptVersionId 2164
如何将两个 keras 模型连接成一个模型？

假设我有一个 ResNet50 模型我希望将该模型的输出层连接到 VGG 模型的输入层这是 ResNet 模型和 ResNet50 的输出张量 img shape 164 164 3 resnet50 model ResNet50 in
Tensorflow seq2seq 获取序列隐藏状态

我不久前才开始研究tensorflow 我正在研究 seq2seq 模型并以某种方式让教程起作用但我一直坚持获取每个句子的状态据我了解 seq2seq 模型采用输入序列并通过 RNN 为序列生成隐藏状态随后模型使用序列的隐藏状态来
有没有办法在bigquery中使用kmeans、tensorflow保存的模型？

我知道这有点愚蠢因为 BigQueryML 现在为 Kmeans 提供了良好的初始化尽管如此我还是需要在张量流中训练一个模型然后将其传递给 BigQuery 进行预测我保存了模型一切正常直到我尝试将其上传到 bigquery
batch_size = x.shape[0] AttributeError: 'tuple' 对象没有属性 'shape'

该代码结合图像和掩模进行图像检测我怎样才能纠正这个错误 batch size x shape 0 AttributeError tuple 对象没有属性 shape 这是用于训练的代码 train datagen ImageDataGen
AttributeError：模块“tensorflow.python.framework.ops”没有属性“RegisterShape”

我正在使用 TensorFlow 2 1 0 dev20191125 不幸的是我无法编译一个带有错误的简单示例 AttributeError 模块 tensorflow python framework ops 没有属性 Registe
Tensorboard——High-level节点的计算时间与其子节点计算时间的总和不同

继tutorial https www tensorflow org programmers guide graph viz在 TensorFlow 上我试图使用张量板来理解运行时统计数据我发现代表名称范围的高级节点的计算时间不等于其子
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
如何从张量流数据集迭代器返回同一批次两次？

我正在转换一些旧代码以使用数据集 API 此代码使用feed dict将一批数据送入列车运行实际上是三次然后重新计算损失以供显示使用同一批所以我需要一个迭代器来返回完全相同的批次两次或多次不幸的是我似乎找不到一种使用张量流数据集
ResNet34 在 Keras.application 中可用吗？

我想包装一个 keras ResNet34 模型但似乎只有 ResNet50 可以从 keras applications 导入有没有一种方法可以直接导入 ResNet34 而不用构建 ResNet34 我在网上找到了以下代码但我想知

随机推荐

如何保护 Chrome 扩展

Chrome 扩展程序被打包为 zip 存档设置完成后它将安装在文件夹中用户可以访问它他还可以重写扩展甚至克隆到新的扩展如何保护扩展免受用户修改和克隆我发现了 dll 文件的可能性可以编译但它不是很好如果您有一些专有代码
Powershell - 在不安装 Excel 的情况下将 CSV 转换为 XLS

我有一台自动生成报告的服务器报告采用 CSV 格式我需要能够直接加密文件无需第三方压缩无 WinZIP 或 WinRAR 我认为最好的想法是将 CSV 转换为 XLS 然后通过 Powershell 密码保护 XLS 文件不幸的是
JSF 2.1 中的 HTML 4 <按钮>

我想使用以下命令 The JSF
Laravel S3 检索视频以流式传输

我通过 Laravel 应用程序将视频存储到 Amazon S3 效果很好但我无法流式传输它们这是例如 URL https website com video 342 qt api token a5a18c9f f5f6 5d66
协助 awk/bash 捕获内存差异

我正在尝试从以下文件中提取以下输出 xr lab show clock Thu Sep 19 14 38 02 812 WIB 14 38 02 893 WIB Thu Sep 19 2019 xr lab xr lab xr lab sh
如何从 tar.gz 存档中删除单个文件

我有一个巨大的 tarbell 存档其中包含过大或损坏的 error log 导致存档在尝试提取它时挂起有没有办法在解压缩或提取存档之前从存档中删除此文件而无需在 Mac OS X 终端上提取该特定文件我找到了这篇关于如何有效地从大
AWS Device Farm - java.lang.ClassNotFoundException：未找到类“androidx.test.runner.AndroidJUnitRunner”

再会我正在尝试使用 AWS Device Farm 进行仪器测试但对于某些设备我收到此错误 02 17 19 22 26 157 15281 15281 E AndroidRuntime FATAL EXCEPTION main 02
如何在 Angular 库中包含图像？

我创建了一个简单的 Angular 库我希望我的库也显示图像问题是如果我将图像包含在库的模块文件夹中然后从模块内部引用它则会收到 404 错误据我所知在 Angular 项目中图像必须放置在 assets 文件夹中但我确实
在另一种语言中使用 dateFormatter [重复]

这个问题在这里已经有答案了我正在运行一段返回的代码nil在具有不同语言设置的 iPhone 上运行时代码示例如下所示 let dateFormatter DateFormatter dateFormatter dateFormat MM
适用于 Objective-C / iPhone 的良好 HTTP 库？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 UPDATE 这个问题显然已经过时了参见日期我建议只使用现代 iOS7 功能例如 NSURLSession 我想这个问题是为了历史
Bigquery dbt_external_tables 外部数据配置

使用 dbt external tables 包时我需要一些帮助我意识到在 GCS 中的 csv 中有些行似乎有换行符这在尝试查询由宏创建的表时会导致一些问题有时手动配置外部表时 BigQuery UI 有两个选项允许锯齿行
jquery select 如果 option.value 等于某个值，则标记为选中

我有一些关于 jquery 选择的问题就我而言如果option value等于某物标记 aselected为了它在线代码在这里 http jsfiddle net WnEfJ 再次重复代码它引起了Uncaught TypeErro
R 中 SVG 图形的最佳设备？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想从 R 导出 SVG 图形似乎有两种选择 RSvgDevice 和 Cairo 有人可以对这些包发表评论吗是默认的还是明显比另一个
Guice的@Singleton注解可以继承吗？

假设我有这门课 Singleton public class Parent 和这个类 public class Child extends Parent 在我的 Java 应用程序中我的应用程序依赖于Guice注入来创建对象如果我创建一
在“spring-data-elasticsearch”4.0.4.RELEASE中，如何将SearchHits转换为Page？

In spring data elasticsearch4 0 4 发布 ElasticsearchRestTemplate s queryForPage 方法已弃用需要使用search 相反它返回SearchHits代替Page 那么
使用简单矩阵乘法时出错

我在一次简单的乘法运算中偶然发现了一个错误这让我感到非常惊讶我一直以为这里发生了什么只为矩阵乘法 http www mathworks nl help matlab matlab prog operators html x 2 y z
[APUE]fork后父进程和子进程是否共享相同的文件偏移量？

在 APUE 第 8 3 节中fork function 关于父子进程之间的文件共享它说 It is important that the parent and the child share the same file offset 在
具有白色背景的组合框 DropDownList 样式

我想要一个不可编辑的组合框但仍然显示白色背景颜色因此它的样式有效地类似于默认的组合框样式 DropDown ComboBoxStyle DropDownList 仅提供标准的禁用灰色背景色简单地设置 BackColor Color
如何在 OpenAPI 中定义 XML 对象数组？

我正在使用 OpenAPI 3 0 和 SwaggerHub 设计一个 API 我的 API 有一个 GET 端点它以 XML 格式返回员工数组
验证 Transformer 中多头注意力的实现

我已经实施了MultiAttention head in Transformers 周围有太多的实现所以很混乱有人可以验证我的实施是否正确 DotProductAttention 引用自 https www tensorflow org

验证 Transformer 中多头注意力的实现

验证 Transformer 中多头注意力的实现 的相关文章

随机推荐

热门标签

验证 Transformer 中多头注意力的实现的相关文章