base model初始化large model,造成的参数矩阵对不上权重不匹配问题

2023-11-06

先报错没有指定文件
OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_model.msgpack found in directory
请添加图片描述
在https://huggingface.co/搜索下载后,载入预训练模型时Pytorch遇到权重不匹配的问题

raise RuntimeError(f"Error(s) in loading state_dict for {model.__class__.__name__}:\n\t{error_msg}")
RuntimeError: Error(s) in loading state_dict for PegasusForConditionalGeneration:
	size mismatch for final_logits_bias: copying a param with shape torch.Size([1, 96103]) from checkpoint, the shape in current model is torch.Size([1, 21128]).
	size mismatch for model.shared.weight: copying a param with shape torch.Size([96103, 1024]) from checkpoint, the shape in current model is torch.Size([21128, 768]).
	size mismatch for model.encoder.embed_tokens.weight: copying a param with shape torch.Size([96103, 1024]) from checkpoint, the shape in current model is torch.Size([21128, 768]).
	size mismatch for model.encoder.embed_positions.weight: copying a param with shape torch.Size([512, 1024]) from checkpoint, the shape in current model is torch.Size([1024, 768]).
	size mismatch for model.encoder.layers.0.self_attn.k_proj.weight: copying a param with shape torch.Size([1024, 1024]) from checkpoint, the shape in current model is torch.Size([768, 768]).

请添加图片描述
百度主要两个原因:
1、现为CPU,但加载了原先GPU训练的pkl
2、代码原因

首先排除代码因素,然后查看gpu状态

import torch
print(torch.cuda.is_available())

在这里插入图片描述

排除以上两个原因后,尝试删除.pkl缓存文件,重新生成.pkl文件
在这里插入图片描述

依旧报错

请教学弟,
可能原因:
arg.那个值,可能用base model初始化了一个large model,所以参数矩阵对不上

解决方案1:在config里面修改参数
确认了没问题
解决方案2:pytorch model文件大了
下载的是large model ,但初始化用的是base model
请添加图片描述
重新下载小点的文件

解决啦hhh

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

base model初始化large model,造成的参数矩阵对不上权重不匹配问题 的相关文章

随机推荐

  • VC++、MFC中最好的开源项目

    介绍一下用VC MFC写的最好的开源项目 Sourceforge net中有许多高质量的VC 开源项目 我列举了一些可以作为VC 程序员的参考 一 优秀的开源项目 7 Zip http sourceforge net projects se
  • react项目路由组件懒加载方法对比,@loadable/component和react-loadable和suspense lazy

    1 使用 loadable component方法 推荐使用这个 npm install loadable component S 先安装一下 2 在app js中引入 loadable component import Loadable
  • 随机森林回归模型--评分预测

    PS 介绍代码仅供介绍 源代码后期经过修改与介绍代码不一定完全相同 索引表 使用到的库 数据加载和预处理 划分训练集和测试集 模型选择和训练 模型评估 模型优化 结果展示 尾声 使用到的库 import pandas as pd 数据处理库
  • tomcat版本与jdk对应关系

    见tomcat官网说明 http tomcat apache org whichversion html Apache Tomcat Versions Apache Tomcat is an open source software imp
  • Mongodb系列- spring-data-mongodb使用MongoTemplate实现分页查询

    转载于 http www cnblogs com jycboy p 8969035 html 在用spring data mongodb框架开发的过程中 需要实现分页查询 就百度了下 没找到满意的又google了下 找到了思路 在sprin
  • IO进程线程day8(2023.8.6)

    一 Xmind整理 管道的原理 有名管道的特点 信号的原理 二 课上练习 练习1 pipe 功能 创建一个无名管道 同时打开无名管道的读写端 原型 include
  • 如何让Myeclipse已经关闭掉的项目不显示出来

    一 打开Package Explorer视图 在它的右上角有一个向下的三角图标 2 点击后选择Filters 在弹出的Filter配置窗口中选中 Closed Projects 转载于 https www cnblogs com rensh
  • rabbitmq消息消费失败如何处理

    在介绍消息中间件 MQ 之前 我们先来简单的了解一下 为何要引用消息中间件 例如 在电商平台中 常见的用户下单 会经历以下几个流程 当用户下单时 创建完订单之后 会调用第三方支付平台 对用户的账户金额进行扣款 如果平台支付扣款成功 会将结果
  • electron 自定义标题栏(windows 系统)

    其实没有网上那么麻烦 如果你仅仅只是想去掉标题 还有下面的工具栏 只需要如下配置 const win new BrowserWindow width 800 height 600 titleBarStyle hidden titleBarO
  • 大数据系列——概论

    1 何为大数据 在万物互联的时代 数据每时每刻都在产生 你的手机 笔记本 智能穿戴设备 智能家电等等所有联网的终端设备都在不间断的向云端输送着数据 云端数据呈指数级增长 在过去 受限于人类的计算能力 只能通过随机采样来进行数据分析 分析的结
  • 深度学习实战(十):使用 PyTorch 进行 3D 医学图像分割

    深度学习实战 十 使用 PyTorch 进行 3D 医学图像分割 1 项目简介 2 3D医学图像分割的需求 3 医学图像和MRI 4 三维医学图像表示 5 3D Unet模型 5 1损失函数 Dice Loss 5 2医学成像数据 5 2
  • 常用快捷键整理(centos7、Notepad++、Idea、Excel)

    目录 一 常用快捷键 1 Notepad 常用快捷键 2 centos7快捷键 3 idea快捷键 4 excel 一 常用快捷键 1 Notepad 常用快捷键 1 Ctrl D 复制当前行 2 Ctrl L 删除当前行 3 Ctrl T
  • Python面试经验总结,面试一时爽,一直面试一直爽!

    有伙伴问过我Python面试相关的问题 这里也跟大家总结了一下 跟大家说说我之前的面试经历和心得体会 1 简历制作 我做了两份简历 用两个手机账号 两个简历名字 分别在各个招聘网站投了双份简历 一个是数据分析的简历 一个是web全栈开发的简
  • 软件测试第一阶段:web前端技术基础-9- 测试用例设计方法

    一丶测试用例 测试用例 将要进行的测试工作具体化 并且记录到一个文件中 一般情况下是一个excel 表格 在测试用例中 明确的指定了每一步要做什么操作 期望得到什么结果 测试工作 等程序员完成代码 此时可以进行前期准备工作 也就是编写测试用
  • JS小数点前面的0显示

    使用Java从 oracle数据库中取出0 225的数字时 在前台js页面中显示为 225 有两种方法 1 Java中的类使用string来存储0 225时 会保存为 225 需要在前台使用 js方法parseFloat 转为float类型
  • LF AI & Data基金会执行董事Ibrahim Haddad:加速中的开源人工智能创新与合作

    以人工智能为代表的新一代信息技术正在深刻改变着世界 改变着人类生活 人工智能技术不但能够带来便利 同时也为其带来了不确定 不稳定等诸多挑战 2022年7月21日 由中国开源软件推进联盟主办 赛迪传媒 软件和集成电路 杂志社联合承办 CSDN
  • Windows装机必备——WinRAR2023最新版下载&安装教程

    软件下载 软件 WinRAR 版本 自动更新 语言 简体中文 大小 3 38M 系统要求 Win7及以上 32 64为操作系统 硬件要求 CPU 2 0GHz 内存 2G 或更高 下载通道 百度网盘丨下载链接 链接 https pan ba
  • 使用Prometheus+Grafana监控MySQL

    你还不会监控服务器资源吗 你还不会监控mysql性能吗 但是你看了这篇文章之后我想你应该会了 哈哈哈 就算不会 至少你也知道是个怎么回事 这篇文章就来介绍怎么给自己的服务器系统搭建一个监控平台 要是还不会 请私聊我 哈哈 一 介绍Prome
  • 单片机_第2章 MCS-51单片机的结构及原理

    目录 2 1 MCS 51单片机的结构 2 1 1 MCS 51单片机的内部结构 80C51单片机的内部资源主要包括 CPU Central Processing Unit 2 1 2 MCS 51引脚及功能 封装 80C51单片机的40只
  • base model初始化large model,造成的参数矩阵对不上权重不匹配问题

    先报错没有指定文件 OSError Error no file named pytorch model bin tf model h5 model ckpt index or flax model msgpack found in dire