base model初始化large model，造成的参数矩阵对不上权重不匹配问题

2023-11-06

先报错没有指定文件
OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_model.msgpack found in directory
请添加图片描述
在https://huggingface.co/搜索下载后，载入预训练模型时Pytorch遇到权重不匹配的问题

raise RuntimeError(f"Error(s) in loading state_dict for {model.__class__.__name__}:\n\t{error_msg}")
RuntimeError: Error(s) in loading state_dict for PegasusForConditionalGeneration:
	size mismatch for final_logits_bias: copying a param with shape torch.Size([1, 96103]) from checkpoint, the shape in current model is torch.Size([1, 21128]).
	size mismatch for model.shared.weight: copying a param with shape torch.Size([96103, 1024]) from checkpoint, the shape in current model is torch.Size([21128, 768]).
	size mismatch for model.encoder.embed_tokens.weight: copying a param with shape torch.Size([96103, 1024]) from checkpoint, the shape in current model is torch.Size([21128, 768]).
	size mismatch for model.encoder.embed_positions.weight: copying a param with shape torch.Size([512, 1024]) from checkpoint, the shape in current model is torch.Size([1024, 768]).
	size mismatch for model.encoder.layers.0.self_attn.k_proj.weight: copying a param with shape torch.Size([1024, 1024]) from checkpoint, the shape in current model is torch.Size([768, 768]).

请添加图片描述
百度主要两个原因：
1、现为CPU，但加载了原先GPU训练的pkl
2、代码原因

首先排除代码因素，然后查看gpu状态

import torch
print(torch.cuda.is_available())

在这里插入图片描述

排除以上两个原因后，尝试删除.pkl缓存文件，重新生成.pkl文件
在这里插入图片描述

依旧报错

请教学弟，
可能原因：
arg.那个值，可能用base model初始化了一个large model，所以参数矩阵对不上

解决方案1:在config里面修改参数
确认了没问题
解决方案2：pytorch model文件大了
下载的是large model ，但初始化用的是base model
请添加图片描述
重新下载小点的文件

解决啦hhh

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

矩阵

Pytorch

base model初始化large model，造成的参数矩阵对不上权重不匹配问题的相关文章

torchvision.transforms.Normalize 是如何操作的？

我不明白如何标准化Pytorch works 我想将平均值设置为0和标准差1跨越张量中的所有列x形状的 2 2 3 一个简单的例子 gt gt gt x torch tensor 1 2 3 4 5 6 7 8 9 10 11 12 gt
在 PyTorch 中原生测量多类分类的 F1 分数

我正在尝试在 PyTorch 中本地实现宏 F1 分数 F measure 而不是使用已经广泛使用的sklearn metrics f1 score https scikit learn org stable modules generat
使用 KL 散度时，变分自动编码器为每个输入 mnist 图像提供相同的输出图像

当不使用 KL 散度项时 VAE 几乎完美地重建 mnist 图像但在提供随机噪声时无法正确生成新图像当使用 KL 散度项时 VAE 在重建和生成图像时都会给出相同的奇怪输出这是损失函数的 pytorch 代码 def loss fu
一次热编码期间出现 RunTimeError

我有一个数据集其中类值以 1 步从 2 到 2 i e 2 1 0 1 2 其中 9 标识未标记的数据使用一种热编码 self one hot encode labels 我收到以下错误 RuntimeError index 1 is
尝试理解 Pytorch 的 LSTM 实现

我有一个包含 1000 个示例的数据集其中每个示例都有5特征 a b c d e 我想喂7LSTM 的示例以便它预测第 8 天的特征 a 阅读 nn LSTM 的 Pytorchs 文档我得出以下结论 input size 5 hid
PyTorch LSTM：运行时错误：无效参数 0：张量的大小必须匹配，维度 0 除外。维度 1 为 1219 和 440

我有一个基本的 PyTorch LSTM import torch nn as nn import torch nn functional as F class BaselineLSTM nn Module def init self su
BatchNorm 动量约定 PyTorch

Is the 批归一化动量约定 http pytorch org docs master modules torch nn modules batchnorm html 默认 0 1 与其他库一样正确例如Tensorflow默认情况下似乎
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
Pytorch GPU 使用率低

我正在尝试 pytorch 的例子https pytorch org tutorials beginner blitz cifar10 tutorial html https pytorch org tutorials beginner b
PyTorch 中的连接张量

我有一个张量叫做data形状的 128 4 150 150 其中 128 是批量大小 4 是通道数最后 2 个维度是高度和宽度我有另一个张量叫做fake形状的 128 1 150 150 我想放弃最后一个list array从第 2 维
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
如何计算cifar10数据的平均值和标准差

Pytorch 使用以下值作为 cifar10 数据的平均值和标准差变换 Normalize 0 5 0 5 0 5 0 5 0 5 0 5 我需要理解计算背后的概念因为这些数据是 3 通道图像我不明白什么是相加的什么是除什么的等等
PyTorch：如何批量进行推理（并行推理）

如何在PyTorch中批量进行推理如何并行进行推理以加快这部分代码的速度我从进行推理的标准方法开始 with torch no grad for inputs labels in dataloader predict inputs in
PyTorch LSTM 中的“隐藏”和“输出”有什么区别？

我无法理解 PyTorch 的 LSTM 模块以及类似的 RNN 和 GRU 的文档关于输出它说输出输出 h n c n 输出 seq len batch hidden size num directions 包含RNN最后一层的
Pytorch 中是否有一种方法可以以可反向传播的方式计算唯一值的数量？

给定以下张量这是网络的结果注意 grad fn tensor 121 241 125 1 108 238 125 121 13 117 121 229 161 13 0 202 161 121 121 0 121 121 242 125
尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序我尝试运行一个基本脚本来测试 pytorch 是否正常工作但出现以下错误 RuntimeError cuda runtime erro
导入pytorch时，未安装microsoft Visual C++ Redistributable

我在一台带有 GPU 的 Windows 机器上工作我已经在 conda 环境中安装了 pytorch conda install pytorch torchvision cudatoolkit 10 1 c pytorch 然后我运行
没有名为“torch”或“torch.C”的模块

希望得到像我 5 这样的解释因为我已经检查了所有相关答案但没有一个有帮助我已经安装了Python 我已经安装了Pycharm 我已经安装了Anaconda 我已经安装了 Microsoft Visual Studio 我有not安装了
Pytorch RuntimeError：张量 a (4) 的大小必须与非单维 0 处张量 b (3) 的大小匹配

我使用的代码来自here https www learnopencv com image classification using transfer learning in pytorch 训练模型来预测印刷样式编号0 to 9 idx t
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4

随机推荐

VC++、MFC中最好的开源项目

介绍一下用VC MFC写的最好的开源项目 Sourceforge net中有许多高质量的VC 开源项目我列举了一些可以作为VC 程序员的参考一优秀的开源项目 7 Zip http sourceforge net projects se
react项目路由组件懒加载方法对比，@loadable/component和react-loadable和suspense lazy

1 使用 loadable component方法推荐使用这个 npm install loadable component S 先安装一下 2 在app js中引入 loadable component import Loadable
随机森林回归模型--评分预测

PS 介绍代码仅供介绍源代码后期经过修改与介绍代码不一定完全相同索引表使用到的库数据加载和预处理划分训练集和测试集模型选择和训练模型评估模型优化结果展示尾声使用到的库 import pandas as pd 数据处理库
tomcat版本与jdk对应关系

见tomcat官网说明 http tomcat apache org whichversion html Apache Tomcat Versions Apache Tomcat is an open source software imp
Mongodb系列- spring-data-mongodb使用MongoTemplate实现分页查询

转载于 http www cnblogs com jycboy p 8969035 html 在用spring data mongodb框架开发的过程中需要实现分页查询就百度了下没找到满意的又google了下找到了思路在sprin
IO进程线程day8（2023.8.6）

一 Xmind整理管道的原理有名管道的特点信号的原理二课上练习练习1 pipe 功能创建一个无名管道同时打开无名管道的读写端原型 include
如何让Myeclipse已经关闭掉的项目不显示出来

一打开Package Explorer视图在它的右上角有一个向下的三角图标 2 点击后选择Filters 在弹出的Filter配置窗口中选中 Closed Projects 转载于 https www cnblogs com rensh
rabbitmq消息消费失败如何处理

在介绍消息中间件 MQ 之前我们先来简单的了解一下为何要引用消息中间件例如在电商平台中常见的用户下单会经历以下几个流程当用户下单时创建完订单之后会调用第三方支付平台对用户的账户金额进行扣款如果平台支付扣款成功会将结果
electron 自定义标题栏(windows 系统)

其实没有网上那么麻烦如果你仅仅只是想去掉标题还有下面的工具栏只需要如下配置 const win new BrowserWindow width 800 height 600 titleBarStyle hidden titleBarO
大数据系列——概论

1 何为大数据在万物互联的时代数据每时每刻都在产生你的手机笔记本智能穿戴设备智能家电等等所有联网的终端设备都在不间断的向云端输送着数据云端数据呈指数级增长在过去受限于人类的计算能力只能通过随机采样来进行数据分析分析的结
深度学习实战（十）：使用 PyTorch 进行 3D 医学图像分割

深度学习实战十使用 PyTorch 进行 3D 医学图像分割 1 项目简介 2 3D医学图像分割的需求 3 医学图像和MRI 4 三维医学图像表示 5 3D Unet模型 5 1损失函数 Dice Loss 5 2医学成像数据 5 2
常用快捷键整理（centos7、Notepad++、Idea、Excel）

目录一常用快捷键 1 Notepad 常用快捷键 2 centos7快捷键 3 idea快捷键 4 excel 一常用快捷键 1 Notepad 常用快捷键 1 Ctrl D 复制当前行 2 Ctrl L 删除当前行 3 Ctrl T
Python面试经验总结，面试一时爽，一直面试一直爽！

有伙伴问过我Python面试相关的问题这里也跟大家总结了一下跟大家说说我之前的面试经历和心得体会 1 简历制作我做了两份简历用两个手机账号两个简历名字分别在各个招聘网站投了双份简历一个是数据分析的简历一个是web全栈开发的简
软件测试第一阶段：web前端技术基础-9- 测试用例设计方法

一丶测试用例测试用例将要进行的测试工作具体化并且记录到一个文件中一般情况下是一个excel 表格在测试用例中明确的指定了每一步要做什么操作期望得到什么结果测试工作等程序员完成代码此时可以进行前期准备工作也就是编写测试用
JS小数点前面的0显示

使用Java从 oracle数据库中取出0 225的数字时在前台js页面中显示为 225 有两种方法 1 Java中的类使用string来存储0 225时会保存为 225 需要在前台使用 js方法parseFloat 转为float类型
LF AI & Data基金会执行董事Ibrahim Haddad：加速中的开源人工智能创新与合作

以人工智能为代表的新一代信息技术正在深刻改变着世界改变着人类生活人工智能技术不但能够带来便利同时也为其带来了不确定不稳定等诸多挑战 2022年7月21日由中国开源软件推进联盟主办赛迪传媒软件和集成电路杂志社联合承办 CSDN
Windows装机必备——WinRAR2023最新版下载&安装教程

软件下载软件 WinRAR 版本自动更新语言简体中文大小 3 38M 系统要求 Win7及以上 32 64为操作系统硬件要求 CPU 2 0GHz 内存 2G 或更高下载通道百度网盘丨下载链接链接 https pan ba
使用Prometheus+Grafana监控MySQL

你还不会监控服务器资源吗你还不会监控mysql性能吗但是你看了这篇文章之后我想你应该会了哈哈哈就算不会至少你也知道是个怎么回事这篇文章就来介绍怎么给自己的服务器系统搭建一个监控平台要是还不会请私聊我哈哈一介绍Prome
单片机_第2章 MCS-51单片机的结构及原理

目录 2 1 MCS 51单片机的结构 2 1 1 MCS 51单片机的内部结构 80C51单片机的内部资源主要包括 CPU Central Processing Unit 2 1 2 MCS 51引脚及功能封装 80C51单片机的40只
base model初始化large model，造成的参数矩阵对不上权重不匹配问题

先报错没有指定文件 OSError Error no file named pytorch model bin tf model h5 model ckpt index or flax model msgpack found in dire

base model初始化large model，造成的参数矩阵对不上权重不匹配问题

base model初始化large model，造成的参数矩阵对不上权重不匹配问题 的相关文章

随机推荐

热门标签

base model初始化large model，造成的参数矩阵对不上权重不匹配问题的相关文章