Pytorch中的torch.nn.Linear()方法的详解

2023-11-08

torch.nn.Linear()作为深度学习中最简单的线性变换方法，其主要作用是对输入数据应用线性转换，先来看一下官方的解释及介绍:

class Linear(Module):
    r"""Applies a linear transformation to the incoming data: :math:`y = xA^T + b`

    This module supports :ref:`TensorFloat32<tf32_on_ampere>`.

    Args:
        in_features: size of each input sample
        out_features: size of each output sample
        bias: If set to ``False``, the layer will not learn an additive bias.
            Default: ``True``

    Shape:
        - Input: :math:`(N, *, H_{in})` where :math:`*` means any number of
          additional dimensions and :math:`H_{in} = \text{in\_features}`
        - Output: :math:`(N, *, H_{out})` where all but the last dimension
          are the same shape as the input and :math:`H_{out} = \text{out\_features}`.

    Attributes:
        weight: the learnable weights of the module of shape
            :math:`(\text{out\_features}, \text{in\_features})`. The values are
            initialized from :math:`\mathcal{U}(-\sqrt{k}, \sqrt{k})`, where
            :math:`k = \frac{1}{\text{in\_features}}`
        bias:   the learnable bias of the module of shape :math:`(\text{out\_features})`.
                If :attr:`bias` is ``True``, the values are initialized from
                :math:`\mathcal{U}(-\sqrt{k}, \sqrt{k})` where
                :math:`k = \frac{1}{\text{in\_features}}`

    Examples::

        >>> m = nn.Linear(20, 30)
        >>> input = torch.randn(128, 20)
        >>> output = m(input)
        >>> print(output.size())
        torch.Size([128, 30])
    """
    __constants__ = ['in_features', 'out_features']
    in_features: int
    out_features: int
    weight: Tensor

    def __init__(self, in_features: int, out_features: int, bias: bool = True) -> None:
        super(Linear, self).__init__()
        self.in_features = in_features
        self.out_features = out_features
        self.weight = Parameter(torch.Tensor(out_features, in_features))
        if bias:
            self.bias = Parameter(torch.Tensor(out_features))
        else:
            self.register_parameter('bias', None)
        self.reset_parameters()

    def reset_parameters(self) -> None:
        init.kaiming_uniform_(self.weight, a=math.sqrt(5))
        if self.bias is not None:
            fan_in, _ = init._calculate_fan_in_and_fan_out(self.weight)
            bound = 1 / math.sqrt(fan_in)
            init.uniform_(self.bias, -bound, bound)

    def forward(self, input: Tensor) -> Tensor:
        return F.linear(input, self.weight, self.bias)

    def extra_repr(self) -> str:
        return 'in_features={}, out_features={}, bias={}'.format(
            self.in_features, self.out_features, self.bias is not None
        )


# This class exists solely for Transformer; it has an annotation stating
# that bias is never None, which appeases TorchScript

这里我们主要看__init__()方法，很容易知道，当我们使用这个方法时一般需要传入2~3个参数，分别是in_features: int, out_features: int, bias: bool = True，第三个参数是说是否加偏置(bias)，简单来讲，这个函数其实就是一个'一次函数':y = xA^T + b,(T表示张量A的转置),首先super(Linear, self).__init__()就是老生常谈的方法，之后初始化in_features和out_features，接下来就是比较重要的weight的设置，我们可以很清晰的看到weight的shape是(out_features,in_features)的，而我们在做xA^T时，并不是x和A^T相乘的，而是x和A.weight^T相乘的，这里需要大大留意，也就是说先对A做转置得到A.weight，然后在丢入y = xA^T + b中，得出结果。

接下来奉上一个小例子来实践一下:

import torch

# 随机初始化一个shape为(128,20)的Tensor
x = torch.randn(128,20)
# 构造线性变换函数y = xA^T + b,且参数(20,30)指的是A的shape,则A.weight的shape就是(30,20)了
y= torch.nn.Linear(20,30)
output = y(x)
# 按照以上逻辑使用torch中的简单乘法函数进行检验，结果很显然与上述符合
# 下面的y.weight可以理解为一个shape为(30,20)的一个可学习的矩阵，.t()表示转置
# y.bias若为TRUE，则bias是一个Tensor，且其shape为out_features,在该程序中应为30
# 更加细致的表达一下y = (128 * 20) * (30 * 20)^T + (if bias (1,30) ,else: 0)
ans = torch.mm(x,y.weight.t())+y.bias
print('ans.shape:\n',ans.shape)
print(torch.equal(ans,output))

由于本人水平有限，难免出现错误，欢迎大佬批评指正~

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch中的torch.nn.Linear()方法的详解的相关文章

使用 KL 散度时，变分自动编码器为每个输入 mnist 图像提供相同的输出图像

当不使用 KL 散度项时 VAE 几乎完美地重建 mnist 图像但在提供随机噪声时无法正确生成新图像当使用 KL 散度项时 VAE 在重建和生成图像时都会给出相同的奇怪输出这是损失函数的 pytorch 代码 def loss fu
在pytorch张量中过滤数据

我有一个张量X like 0 1 0 5 1 0 0 1 2 0 我想实现一个名为的函数filter positive 它可以将正数据过滤成新的张量并返回原始张量的索引例如 new tensor index filter positive
如何在pytorch中查看DataLoader中的数据

我在 Github 上的示例中看到类似以下内容如何查看该数据的类型形状和其他属性 train data MyDataset int 1e3 length 50 train iterator DataLoader train data b
为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

我试图找出 numpy pytorch gpu cpu float16 float32 数字之间的舍入差异而我发现的内容让我感到困惑基本版本是 a torch rand 3 4 dtype torch float32 b torch r
pytorch 中的 autograd 可以处理同一模块中层的重复使用吗？

我有一层layer in an nn Module并在一次中使用两次或多次forward步这个的输出layer稍后输入到相同的layer pytorch可以吗autograd正确计算该层权重的梯度 def forward x x self
BatchNorm 动量约定 PyTorch

Is the 批归一化动量约定 http pytorch org docs master modules torch nn modules batchnorm html 默认 0 1 与其他库一样正确例如Tensorflow默认情况下似乎
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
如何使用Python计算多类分割任务的dice系数？

我想知道如何计算多类分割的骰子系数这是计算二元分割任务的骰子系数的脚本如何循环每个类并计算每个类的骰子先感谢您 import numpy def dice coeff im1 im2 empty score 1 0 im1 numpy
PyTorch 中的交叉熵

交叉熵公式但为什么下面给出loss 0 7437代替loss 0 since 1 log 1 0 import torch import torch nn as nn from torch autograd import Variable
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
Pytorch RuntimeError：“host_softmax”未针对“torch.cuda.LongTensor”实现

我正在使用 pytorch 来训练模型但是在计算交叉熵损失时我遇到了运行时错误 Traceback most recent call last File deparser py line 402 in
Google Colab 使用 Transformers 和 PyTorch 微调 BERT Base Case 时出现间歇性“RuntimeError: CUDA out of memory”错误

我正在运行以下代码来微调 Google Colab 中的 BERT Base Cased 模型有时代码第一次运行良好没有错误其他时候相同的代码使用相同的数据会导致 CUDA 内存不足错误以前重新启动运行时或退出笔记本返回笔
运行时错误：大小不匹配，m1：[4 x 3136]，m2：[64 x 5]位于c：\ a \ w \ 1 \ s \ tmp_conda_3.7_1

我使用 python 3 当我插入变换随机裁剪大小 224 时它会给出未匹配错误这是我的代码 https github com kajasumanie medical plant classification blob master i
使用 CNN 和 pytorch 计算每个类别的准确度

我可以使用此代码计算每个时期后的准确性但是我想最后计算每个班级的准确性我怎样才能做到这一点我有两个文件夹 train 和 val 每个文件夹有 7 个不同类别的 7 个文件夹 train 文件夹用于训练否则 val 文件夹用于测试
如何解决错误：PyTorch 中预期输入批量大小与目标批量大小不匹配？

我尝试通过 PyTorch 在 CIFAR10 数据集上创建逻辑模型但是我收到错误 ValueError 预期输入batch size 900 与目标batch size 300 匹配我认为正在发生的事情是 3 100 是 300 所以
如何让火车装载机使用特定数量的图像？

假设我正在使用以下调用 trainset torchvision datasets ImageFolder root imgs transform transform trainloader torch utils data DataLoa
如何从 PyTorch 模型的特定层获取输出？

如何从预训练的 PyTorch 模型例如 ResNet 或 VGG 中提取特定层的特征而无需再次进行前向传递新答案 Edit torchvision v0 11 0 中有一个新功能允许提取特征 https github com py
PyTorch 中的数据增强

我对 PyTorch 中执行的数据增强有点困惑现在据我所知当我们执行数据增强时我们保留原始数据集然后添加它的其他版本翻转裁剪等但 PyTorch 中似乎并没有发生这种情况据我从参考文献中了解到当我们使用data tra
带有填充掩码的 TransformerEncoder

我正在尝试使用 src key padding mask 不等于 none 来实现 torch nn TransformerEncoder 想象输入的形状src 20 95 二进制填充掩码的形状为src mask 20 95 填充标记的位置

随机推荐

vscode html文件自动补充html骨架失效

vscode html文件自动补充html骨架失效输入 Tab键补全html骨架失效解决办法 1 让html文件处于编辑状态按下快捷键ctrl shift p 2 在跳转的对话框里面输入change language mode 在下拉
什么是动态库?什么又是静态库?(如何生成/如何使用 ! ! !)

动态库静态库目录一 gcc g 的链接方式 1 动态链接 2 静态链接二库的优缺点 1 动态库的优点 2 静态库的优点三库的生成四库的使用目录一 gcc g 的链接方式对于我们编译一段程序经常会需要调用一个函数库就
浅谈对于servlet的见解

众所周知我们创建一个javaweb项目后在客户端想要访问服务器得发起http请求服务器对请求会进行响应看似简单的请求和响应有很大的门道虽然我们都会用servlet但是不乏有人不懂其中的原理接下来我就浅谈一下servlet的一些
获取当前IP地址，跳转到对应城市网站。

博客迁移时空蚂蚁http cui cuihongbo com 1 代码 index php
COCO-stuff用法

COCO stuff API 1 是 COCO API 2 的扩展安装见 3 这里研究一下 COCO stuff 的用法 Files 下载链见 4 image 训练集图片 train2017 zip 验证集图片 val2017 zip 分
Vue+ElementUI实现将数据库中的数字展示成对应汉字

需求数据库中存的是数字类型需要展示成对应的汉字其中 1 gt 部级 2 gt 省级 3 gt 市级 4 gt 其他 dvIdxIndexList里面是从后台查到的结果集我们首直接用map遍历后台返回的结果集利用里面的回调对数据进行
在windows10的系统下安装MySQL

简单介绍一下 Mysql workbench的安装教程官方网址 https www mysql com downloads 下拉到最下面点击进去下载这两个软件分别是 mysql的具体网址 https dev mysql com do
记一次在forEach循环中使用异步代码无效

背景代码如下 const res1 await getOrderPackage XM LX 95 入院检查套餐 const res2 await getOrderPackage XM LX 98 入院检验套餐 const res res1
将windows10 的编码修改为UTF-8

临时修改只作用于当前窗口先进入cmd命令窗口快捷键win键 R 直接输入 chcp 65001 然后回车键 Enter键执行这时候本次打开的窗口编码就已经是UTF 8了永久修改 win键 R 然后在输入框输入regedit 确定
mediapipe教程5：在安卓上运行mediapipe的handTracking

一前言和准备见mediapipe教程4 这篇博客开门见山直接来步骤二在安卓上运行mediapipe的handTracking 参考网址步骤 https google github io mediapipe getting star
手游服务器微信互通,9月14日部分服务器数据互通公告

尊敬的轩辕勇士们轩辕传奇手游开放测试以来人气沸腾各种战斗的激烈程度也随之升级为了让勇士们尽享更刺激更热血的战斗我们计划于9月14日6 00 9 00期间进行数据互通操作数据互通期间相关服务器将暂时无法进入造成您的不便恳请
卷积神经网络的深入理解-归一化篇（Batch Normalization具体实例）

卷积神经网络的深入理解归一化篇标准化归一化神经网络中主要用在激活之前卷积之后持续补充归一化在网络中的作用 1 线性归一化进行线性拉伸可以增加对比度 2 零均值归一化像素值均值方差 3 Batch Normalizat
多路复用select、poll、epoll总结

多路复用select poll epoll总结一多路复用 IO多路复用是指使用单个线程同时处理多个IO请求在IO多路复用模型中一个线程可以监视多个文件描述符 fd 一旦某个fd就绪读写就绪或者超时就能够通知应用程序进行相应的读
获取宝塔Linux面板登陆地址账号和密码

在ssh终端输入 etc init d bt default
Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields

Realtime Multi Person 2D Pose Estimation Using Part Affinity Fields 1 文章概要文章实现了图片中的多人姿态检测与已有的方法相比最大的优势在于检测的速度对人物的数量不敏
python三方库是什么_python第三方库有哪几种

在对于python的使用上除了要掌握基本的操作方法外如果有一些好用的工具辅助效果也是非常明显的为了能够给大家提供最大的帮助 python中的第三方库的种类也是非常多的本篇挑选了使用功能强大且比较好用的第三方类整理出了它们的一些
R数据处理——按符号分割数据&统计两列数据组合的频数

初始数据格式数据格式如图所示每个Keywords里面都含有多个关键词使用分号间隔开一共有ABCDEF六个group 并且关键词有重复最终想要的数据格式统计所有不重复的关键词在六个group中出现的频次使用R来处理 rm li
SAP CO TCODE

CO 主数据利润中心主数据维护标准层次 KCH5N KCH6N 利润中心组非标准层次 KE51 KE52 KE53 利润中心 KCH1 KCH2 KCH3 利润中心组成本中心主数据维护标准层次 OKEON OKENN 成本中心
Spring Boot：让你轻松掌握自动装配的奥秘

Spring Boot是基于Spring框架开发的一种应用框架它通过自动装配机制大大简化了Spring应用的开发和部署使开发者可以更加专注于业务逻辑的实现而无需过多关注Bean的实例化和装配过程本文将从以下几个方面介绍Spring
Pytorch中的torch.nn.Linear()方法的详解

torch nn Linear 作为深度学习中最简单的线性变换方法其主要作用是对输入数据应用线性转换先来看一下官方的解释及介绍 class Linear Module r Applies a linear transformation

Pytorch中的torch.nn.Linear()方法的详解

Pytorch中的torch.nn.Linear()方法的详解 的相关文章

随机推荐

热门标签

Pytorch中的torch.nn.Linear()方法的详解的相关文章