在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention

2024-05-09

我有一个由一个 LSTM 和两个 Dense 层组成的简单网络，如下所示：

model = tf.keras.Sequential()
model.add(layers.LSTM(20, input_shape=(train_X.shape[1], train_X.shape[2])))
model.add(layers.Dense(20, activation='sigmoid'))
model.add(layers.Dense(1, activation='sigmoid'))
model.compile(loss='mean_squared_error')

它对具有 3 个输入（标准化 0 到 1.0）和 1 个输出（二进制）的数据进行训练，以进行分类。数据是时间序列数据，其中时间步之间存在关系。

    var1(t)   var2(t)   var3(t)  var4(t)
0  0.448850  0.503847  0.498571      0.0
1  0.450992  0.503480  0.501215      0.0
2  0.451011  0.506655  0.503049      0.0

该模型的训练方式如下：

history = model.fit(train_X, train_y, epochs=2800, batch_size=40, validation_data=(test_X, test_y), verbose=2, shuffle=False)
model.summary()

给出模型摘要：

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
lstm (LSTM)                  (None, 20)                1920      
_________________________________________________________________
dense (Dense)                (None, 20)                420       
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 21        
=================================================================
Total params: 2,361
Trainable params: 2,361
Non-trainable params: 0

该模型运行得相当好。现在我尝试用注意力层替换 Dense(20) 层。所有在线示例、教程等（包括 TF 文档）都是针对在输入层具有嵌入层的 seq2seq 模型。我了解 TF v1.x 中的 seq2seq 实现，但我找不到任何有关我正在尝试执行的操作的文档。我相信新的 API (v2.0) 我需要做这样的事情：

lstm = layers.LSTM(20, input_shape=(train_X.shape[1], train_X.shape[2]), return_sequences=True)
lstm = tf.keras.layers.Bidirectional(lstm)
attention = layers.Attention() # this does not work

model = tf.keras.Sequential()
model.add(lstm)
model.add(attention)
model.add(layers.Dense(1, activation='sigmoid'))
model.compile(loss='mean_squared_error')

当然我得到了错误“注意力层必须在输入列表上调用，即 [query, value] 或 [query, value, key]"

我不明白版本（2.0）和这种情况（具有固定长度输入的时间序列数据）的解决方案。欢迎任何关于增加对此类问题的关注的想法。

我最终找到了这个问题的两个答案，都来自 pypi.org 上的库。第一个是自我关注 https://pypi.org/project/keras-self-attention/并且可以使用 Keras（Keras 的 TF 2.0 之前的集成版本）来实现，如下所示...

        model = keras.models.Sequential()
        model.add(keras.layers.LSTM(cfg.LSTM, input_shape=(cfg.TIMESTEPS,
                  cfg.FEATURES),
                  return_sequences=True))
        model.add(SeqSelfAttention(attention_width=cfg.ATTNWIDTH,
                attention_type=SeqSelfAttention.ATTENTION_TYPE_MUL,
                attention_activation='softmax',
                name='Attention'))
        model.add(keras.layers.Dense(cfg.DENSE))
        model.add(keras.layers.Dense(cfg.OUTPUT, activation='sigmoid'))

第二种方法是更通用的解决方案 https://pypi.org/project/attention/与 TF 2.0 后集成 Keras 一起使用，如下所示...

        model = tf.keras.models.Sequential()
        model.add(layers.LSTM(cfg.LSTM, input_shape=(cfg.SEQUENCES,
                  train_X.shape[2]),
                  return_sequences=True))
        model.add(Attention(name='attention_weight'))
        model.add(layers.Dense(train_Y.shape[2], activation='sigmoid'))

它们各自的行为略有不同，并产生截然不同的结果。自注意力库将维度从 3 减少到 2，并且在预测时您会得到每个输入向量的预测。一般注意力机制维护 3D 数据并输出 3D，并且在预测时您只能获得每批次的预测。如果您想要每个输入向量进行预测，您可以通过将预测数据重塑为批量大小为 1 来解决此问题。

至于结果，自注意力确实比单独的 LSTM 产生了更好的结果，但并不比其他增强功能更好，例如 dropout 或更密集的层等。一般注意力似乎并没有给 LSTM 模型带来任何好处，而且在许多方面案件让事情变得更糟，但我仍在调查。

无论如何，这是可以做到的，但到目前为止，是否应该这样做还值得怀疑。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention 的相关文章

使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关
计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv

随机推荐

日期函数的奇怪行为

我今天在 StackOverflow 上遇到了这个问题但没有得到答案我的问题是 echo date Y m d strtotime 2012 september 09 output 2012 09 01 echo date Y m d
django 组合对两个不同基本模型的查询

我有两个不同的查询集我想将两个查询集合并 q1 tbl nt 123 objects values list id value geometry filter restriction height exclude condition id
Sql 查询抛出标识符太长。最大长度为 128

我正在处理一个简单的更新查询在执行查询时看到以下错误我非常清楚这根本不应该是一个长度问题可能是什么问题 Error 以identifier开头的标识符太长最大长度为 128 我的查询 update dbo DataSettings
将 Objective-C 框架 (CocoaPod) 导入 Swift？

我正在尝试导入libjingle peerconnection框架到我的 Xcode 项目中但由于某种原因我无法使用以下命令导入 Objective C 标头import RTCICEServer在 Swift 源文件中我尝试使用头文
ReactJs - 是否可以根据组件树的状态设置 url 或查询字符串

我有一个组件其中有多个嵌套组件特别是选项卡药丸等任何时候都无法看到所有组件我希望能够根据 URL 参数或 URL 设置它们的默认状态属性但我不清楚如何在 React 中实现这一点例如我有一个带有两个选项卡的组件引导程序
可选链接在 create-react-app 中不起作用

In a create react app项目我正在使用 babel plugin proposal optional chaining在我的 babelrc中但是我有这个错误 Module parse failed Unexpect
Hudson 和电子邮件通知

我可以覆盖每个作业的 Hudson 设置系统管理员电子邮件地址吗阅读了一些源代码http sorcerer jenkins ci org http sorcerer jenkins ci org and hudson tasks Ma
在结果中只显示一列？

这是一个简单的问题但如何在下面的代码中选择特定的列我只想显示时间列而不显示其他任何内容我尝试输入 FORMAT TABLE TIME 但它只是多次填充 TIME 而没有实际显示时间 server event Get Conten
用于 Flutter 原生广告的 Objective-C 的 Swift 等效项

我想为我的 Flutter 项目实现原生广告它使用 Swift 而不是 Objective C https developers google com admob flutter native https developers googl
尝试将 indexPath 保存到 NSUserDefaults 时出错

我试图保存 UICollectionView 的索引路径但出现以下错误 libc abi dylib terminating with uncaught exception of type NSException 我的代码是保存索引路径
动画结束后更改视图位置

我开发了一个基于ViewGroup我的问题是我需要在动画结束后保存项目的位置我打了电话setFillAfter true 在我创建的动画对象中AnimationListener并在其中onAnimationEnd方法调用View layo
VNFaceObservation BoundingBox 在纵向模式下不缩放

作为参考这源于一个问题视觉API 我正在努力使用Vision通过a检测图像中的人脸VNDetectFaceRectanglesRequest 它在确定图像中正确的人脸数量并提供boundingBox对于每张脸我的麻烦是由于我UIImag
为什么 Node.js 命名为 Node.js？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我只是好奇为什么 Node js 这么命名我搜索了他们的网站和常见问题解答但没有任何内容可以帮助我理解为什么它被命名为 Node js 官方名称其
SQL Server - 在设置 COLLATE Latin1_General_CS_AS 的情况下搜索不区分大小写

家长提问 https stackoverflow com questions 50974562 sql server update to match and replace only exact words感谢 Iamdave 部分问题得到
C++ [Windows] 可执行文件所在文件夹的路径[重复]

这个问题在这里已经有答案了我需要访问一些文件fstream在我的 Windows 上的 C 应用程序中这些文件都位于我的exe文件所在文件夹的子文件夹中获取当前可执行文件的文件夹路径的最简单且更重要的最安全的方法是什么 Use 获取
底部带有三角形的蒙版图像

我正在尝试找出如何最好地掩盖具有像这样的角度形状的 div 如果在这种情况下顶部 div 将是背景图像并且两个 div 都是 100 宽度我看过很多关于如何用圆形遮罩图像的教程但没有关于如何遮罩红色区域等 div 边框的教程我知道一
使用 OAuth2 隐式流程（IdentityServer4），用户是否必须在每次访问令牌过期时重新输入密码？

我需要为 Angular2 客户端 Web 应用程序实现授权身份验证才能与资源服务器 WebApi 通信我正在调查 IdentiyServer4 并选择授予类型流程 HERE http docs identityserver io e
错误：类型 typeof Observable 上不存在属性计时器

代码如下 import Component from angular2 core import Observable from rxjs Rx Component selector my app template Ticks every s
WCF 客户端因服务中断而挂起

我有一个相当简单的 WCF 服务它为一堆智能客户端执行单向文件同步我注意到当通话期间出现网络或服务中断时客户端将无法与服务器通信直到整个应用程序重新启动该服务运行于BasicHttpBinding并由 IIS6 一个 svc 页
在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention

我有一个由一个 LSTM 和两个 Dense 层组成的简单网络如下所示 model tf keras Sequential model add layers LSTM 20 input shape train X shape 1 trai

在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention

在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention 的相关文章

随机推荐

热门标签