Pytorch — LSTM (nn.LSTM & nn.LSTMCell)

2023-11-13

nn.LSTM

在LSTM中，c和h的size是一样的
torch.nn.LSTM()
参数
– input_size
– hidden_size
– num_layers
– bias
– batch_first
– dropout
– bidirectional

输入
– input (seq_len, batch, input_size)
– h_0 (num_layers * num_directions, batch, hidden_size)
– c_0 (num_layers * num_directions, batch, hidden_size)

输出
– output (seq_len, batch, num_directions * hidden_size)
– h_n (num_layers * num_directions, batch, hidden_size)
– c_n (num_layers * num_directions, batch, hidden_size)
import  torch
from  torch import nn
 
lstm = nn.LSTM(input_size=512, hidden_size=256, num_layers=2, batch_first=True)
print(lstm)
x = torch.randn(40,25,512)
output,(h_n,c_n) = lstm(x)
print(output.shape,h_n.shape,c_n.shape)
lstm中走几个时间步time_step = seq_len

num_layers

num_layers表示堆叠几层LSTM，如果是2就相当于堆叠2层。默认是1

即如果是2层的话就是这样

注意，num_layers的个数对输出的output的size没有影响，但是会影响输出的h_n和c_n，像上面例子中，如果num_layers=1那h_n是[1,40,256], 如果num_layers=2那h_n是[2,40,256]......., c_n也是

batch_first

batch_first指的是，Pytorch的LSTM层默认输入和输出都是batch在第二维，而我们的习惯都是batch在第一维，所以用这个来告诉模型我们的batch维是在第一维的

但是输出的h_n和c_n的size中batch并不会提前到第一维，注意。

output, h_n和c_n的关系

h_n：最后一个时间步的输出，即 h_n = output[:, -1, :]（一般可以直接输入到后续的全连接层）

c_n：最后一个时间步 LSTM cell 的状态（一般用不到）
import torch
import torch.nn as nn

lstm = nn.LSTM(input_size=2, hidden_size=3, batch_first=True)
input = torch.randn(5,4,2)
h0 = torch.randn(1, 5, 3)
c0 = torch.randn(1, 5, 3)
output, (hn, cn) = lstm(input, (h0, c0))
如果是两层

可以看到，如果是多层，那么output还是只会保留最后一层，而h_n则会多层都保留下来

如果是双向

可以看到，双向的output就是把两个方向的给concat到一起了，就是方向是反的

双向LSTM(BiLSTM)

很简单，只要加个bidirectional的参数就行了
import  torch
from  torch import nn

lstm = nn.LSTM(input_size=512, hidden_size=256, num_layers=2, batch_first=True, bidirectional=True)
print(lstm)
x = torch.randn(40,25,512)
out,(h_n,c_n) = lstm(x)
print(out.shape,h_n.shape,c_n.shape)
但是需要注意一点，双向RNN的话，输出的output的size会是2*hidden_size。

h_n和c_n的size不会变，但是他们的第一维会变，第一维是num_layers, 如果双向的话还要乘个2

如果用了Bi-LSTM，参数量会变为两倍
from torch import nn

def print_params(model):
    total_params = sum(p.numel() for p in model.parameters())
    print(f'{total_params:,} total parameters.')
    print(f'{total_params/(1024*1024):.2f}M total parameters.')

lstm = nn.LSTM(input_size=512, hidden_size=256, batch_first=True, num_layers=2)
lstm_bi = nn.LSTM(input_size=512, hidden_size=256, batch_first=True,bidirectional=True, num_layers=2)
for i in [lstm,lstm_bi]:
    print_params(i)

nn.LSTMCell

第二种方式，灵活性更大的cell，人为来决定每一次喂数据

单层

import  torch
from  torch import nn
import numpy as np

print('one layer lstm')
cell=nn.LSTMCell(input_size=100, hidden_size=20)
h=torch.zeros(3,20)
c=torch.zeros(3,20)
x = torch.randn(10,3,100)
for xt in x: 
	h,c = cell(xt, [h,c])

print('h.shape: ',h.shape)
print('c.shape: ',c.shape)

双层

import  torch
from  torch import nn
import numpy as np

x = torch.randn(10,3,100)
print('two layer lstm')
cell1=nn.LSTMCell(input_size=100, hidden_size=30)
cell2=nn.LSTMCell(input_size=30, hidden_size=20)
h1=torch. zeros(3,30)
c1=torch. zeros(3,30)
h2=torch. zeros(3,20)
c2=torch. zeros(3,20)
for xt in x: 
	h1,c1=cell1(xt,[h1, c1])
	h2,c2=cell2(h1,[h2, c2])
print('h.shape: ',h2.shape)
print('c.shape: ',c2.shape)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch

LSTM

Pytorch — LSTM (nn.LSTM & nn.LSTMCell) 的相关文章

torch.stack() 和 torch.cat() 函数有什么区别？

OpenAI 的强化学习 REINFORCE 和 actor critic 示例具有以下代码加强 https github com pytorch examples blob master reinforcement learning r
Pytorch GPU 使用率低

我正在尝试 pytorch 的例子https pytorch org tutorials beginner blitz cifar10 tutorial html https pytorch org tutorials beginner b
在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention

我有一个由一个 LSTM 和两个 Dense 层组成的简单网络如下所示 model tf keras Sequential model add layers LSTM 20 input shape train X shape 1 trai
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
在Pytorch中计算欧几里得范数..理解和实现上的麻烦

我见过另一个 StackOverflow 线程讨论计算欧几里德范数的各种实现但我很难理解特定实现的原因如何工作该代码可以在 MMD 指标的实现中找到 https github com josipd torch two sample b
为什么不使用均方误差来解决分类问题？

我正在尝试使用 LSTM 解决一个简单的二元分类问题我正在尝试找出网络的正确损失函数问题是当我使用二元交叉熵作为损失函数时与使用均方误差 MSE 函数相比训练和测试的损失值相对较高经过研究我发现二元交叉熵应该用于分类问题 MS
将 Pytorch LSTM 的状态参数转换为 Keras LSTM

我试图将现有的经过训练的 PyTorch 模型移植到 Keras 中在移植过程中我陷入了LSTM层 LSTM 网络的 Keras 实现似乎具有三种状态类型的状态矩阵而 Pytorch 实现则具有四种状态矩阵例如对于hidden l
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
如何在不安装pytorch的情况下使用pytorch预训练模型？

我只想在 pytorch 中使用预先训练的模型而不安装整个包我可以从 pytorch 复制模型模块吗恐怕你不能这样做为了运行模型你不仅需要经过训练的权重 pth tar 文件还需要网络的结构即层它们如何相互连接等该网络结
如何同时有效地运行多个 Pytorch 进程/模型？ Traceback：分页文件太小，无法完成此操作

背景我有一个非常小的网络我想用不同的随机种子进行测试该网络几乎只使用了我的 GPU 计算能力的 1 因此理论上我可以同时运行 50 个进程来同时尝试许多不同的种子 Problem 不幸的是我什至无法在多个进程中导入 pytorch 当
Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
导入pytorch时，未安装microsoft Visual C++ Redistributable

我在一台带有 GPU 的 Windows 机器上工作我已经在 conda 环境中安装了 pytorch conda install pytorch torchvision cudatoolkit 10 1 c pytorch 然后我运行
如何让火车装载机使用特定数量的图像？

假设我正在使用以下调用 trainset torchvision datasets ImageFolder root imgs transform transform trainloader torch utils data DataLoa
PyInstaller 可执行文件无法获取 TorchScript 源代码

我正在尝试使包含 PyTorch 的脚本在 Windows 中可执行我的脚本的导入是 import numpy core multiarray which is a workaround for ImportError numpy cor
PyTorch 中的数据增强

我对 PyTorch 中执行的数据增强有点困惑现在据我所知当我们执行数据增强时我们保留原始数据集然后添加它的其他版本翻转裁剪等但 PyTorch 中似乎并没有发生这种情况据我从参考文献中了解到当我们使用data tra
PyTorch 中的标签平滑

我正在建造一个ResNet 18分类模型为斯坦福汽车使用迁移学习的数据集我想实施标签平滑 https arxiv org pdf 1701 06548 pdf惩罚过度自信的预测并提高泛化能力 TensorFlow有一个简单的关键字参数Cr
将 Pytorch 模型 .pth 转换为 onnx 模型

我有一个预训练的模型其格式为 pth 扩展名我想将其转换为 Tensorflow protobuf 但我没有找到任何方法来做到这一点我见过 onnx 可以将模型从 pytorch 转换为 onnx 然后从 onnx 转换为 Tenso
PyTorch 中的后向函数

我对 pytorch 的后向功能有一些疑问我认为我没有得到正确的输出 import numpy as np import torch from torch autograd import Variable a Variable torch

随机推荐

Docker 初学者指南——如何创建您的第一个 Docker 应用程序

您是开发人员想从 Docker 入手这篇文章是为你而写的在简要介绍什么是 Docker 以及为什么要使用它之后您将能够使用 Docker 创建您的第一个应用程序什么是Docker Docker是 Docker Inc 开发的一款免
使用MXNet完成一个基于FCN的盲道实时语义分割

使用MXNet完成一个基于FCN的盲道识别语义分割一点说明基本原理测试集效果数据标注训练基本设置读入数据网络构建开始训练测试一点说明前段时间根据gluon的教程动手学深度学习和同学项目实地拍摄的盲道图片完成了一个基于
最强自动化测试框架Playwright（17）- 模拟接口

模拟接口介绍 Web API 通常作为 HTTP 终结点实现 Playwright提供了API来模拟和修改网络流量包括HTTP和HTTPS 页面所做的任何请求包括 XHR 和获取请求都可以被跟踪修改和模拟使用Playwright
Ubuntu查看usb设备驱动／usb以太网卡设备驱动

step1 lsusb 查看当前有哪些usb设备注意插在usb口上的外接设备一定能通过lsusb显示出来但是不一定能通过lspci显示出来即使这个设备的驱动已经安装了由于我要查看我的有线网卡的驱动 lsusb命令执行完成以后可知
ORA-12505：TNS:listener does not currently know of SID given in connect descriptor

Oracle安装好之后默认的listener是localhost 现在为了在局域网内能够访问其他电脑访问的时候提示如下错误 ORA 12505 TNS listener does not currently know of SID g
八大排序总结---- 数据结构 (图解法) 面试必会! ! !

八大排序总结目录一插入排序 InsertSort 二希尔排序 ShellSort 三选择排序 SelectSort 四堆排序 HeapSort 五冒泡排序 BubbleSort 六快速排序 QuickSort 1 hoare
至少12亿元收支差，分析运营商7大数据产品应用

本文不讨论运营商在大数据的应用上暂时的颓势也不评击其拥有金库却见不着有数的着的商业模式或许是因为运营商们探索时间起步较晚也可能由于运营商对于如何开放用户数据还没想明白又或者是历史遗留的用户数据还存在业务线条分割区域分割数据分散情
学会这7个常见问题和答案，让你下一次JavaScript面试获得高分

在本文中我将涵盖您在JavaScript 面试中可能遇到的最常见问题并提供详细的答案和示例以帮助您在竞争中脱颖而出无论您是初学者还是经验丰富的开发人员本指南都会让您有信心打动面试官并找到工作 1 什么是 JavaScript 它与
用R建立岭回归和lasso回归

1 分别使用岭回归和Lasso解决薛毅书第279页例6 10的回归问题例6 10的问题如下输入例题中的数据生成数据集并做简单线性回归查看效果 cement lt data frame X1 c 7 1 11 11 7 11 3 1
软件工程专业毕设题目选题推荐

文章目录 0 前言 1 题目推荐 2 开题指导 2 1 起因 2 2 如何避坑重中之重 2 3 为什么这么说呢 2 4 难度把控 2 5 题目名称 3 最后 0 前言这是学长亲手整理的软件工程毕设选题系列第三篇都是经过学长精心审核的
自制ChatGPT批量生成文章多线程多Key Python脚本

本文转载自自制ChatGPT批量生成文章多线程多Key Python脚本更多内容请访问钻芒博客 https www zuanmang net 简单多线程GPT3 5模型特有需求生成文章后会先保存txt到文章中程序跑完之后会在生
windows11 BitLocker 强制解锁

windows11 BitLocker 强制解锁打开命令提示符 1 输入 manage bde off C 运行后系统将会对C盘数据解密 2 输入 manage bde status C 查看C盘解密进度注也可在控制面板BitLoc
基于springboot+vue的校园二手交易市场

一项目背景介绍校园二手交易市场是大学生生活中的重要组成部分它为学生提供了一个便捷的方式来买卖物品然而传统的校园二手交易方式存在着信息不对称交易风险高等问题为了解决这些问题基于Spring Boot和Vue的校园二手交易市场系
SAP HANA Studio管理工具管理视图

本文主要介绍SAP HANA Studio管理工具管理视图相关操作步骤方法以及使用说明文档原文地址 SAP HANA Studio管理工具管理视图
插值算法 —— Lerp, NLerp, SLerp

一 Lerp Linear interpolation 线性插值记为 L e r p v 0
cuobjdump的使用

n n desktop nvcc stack overflow cu n n desktop cuobjdump sass a out Fatbin elf code arch sm 20 code version 1 7 producer
聊一聊DDR3中的ODT（On-die termination）

聊一聊DDR3中的ODT On die termination
实现提示框可拖拽（针对antd vue中的a-modal提示框）

在 utils 中新建 directives js 文件 import Vue from vue v drag modal 弹窗拖拽 Vue directive drag modal el bindings vnode gt Vue nex
Nakagami-m 信道

Nakagami m 分布是日本学者Nakagami 在1960年的一篇论文中提出的快衰落模型 Nakagami m 的表达式我们遵照参考文献 1 的说法1 假设接收信号表示如下 r n g
Pytorch — LSTM (nn.LSTM & nn.LSTMCell)

nn LSTM 在LSTM中 c和h的size是一样的 torch nn LSTM 参数 input size hidden size num layers bias batch first dropout bidirectional 输入

Pytorch — LSTM (nn.LSTM & nn.LSTMCell)

nn.LSTM

output, h_n和c_n的关系

双向LSTM(BiLSTM)

nn.LSTMCell

Pytorch — LSTM (nn.LSTM & nn.LSTMCell) 的相关文章

随机推荐

热门标签