本地部署体验LISA模型（LISA≈图像分割基础模型SAM+多模态大语言模型LLaVA）

2023-11-05

在这里插入图片描述

GitHub地址：https://github.com/dvlab-research/LISA
该项目论文paper reading：https://blog.csdn.net/Transfattyacids/article/details/132254770

在GitHub上下载源文件，进入下载的文件夹，打开该地址下的命令控制台，执行指令：

pip install -r requirements.txt
pip install flash-attn --no-build-isolation

几种报错解决方法：

下载包失败
例：“pip install numpy”
解决：“pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple/”
其他源：
清华： https://pypi.tuna.tsinghua.edu.cn/simple/
阿里云： http://mirrors.aliyun.com/pypi/simple/
豆瓣：https://pypi.doubanio.com/simple

安装包版本冲突
例：“tensorflow-intel 2.12.0 requires numpy<1.24,>=1.22, but you have numpy 1.24.2 which is incompatible.”
解决：带上具体版本号，如“pip install numpy==1.23”

就是下不下来
例： “ERROR: Could not build wheels for XXX, which is required to install pyproject.toml-based projects”
解决：去网站下安装包，“.whl”文件到本地安装，列几个下载网站：
https://download.pytorch.org/whl/
https://pypi.org/project

（除了这2个，法1中的3个源也可以使用）
（还是下不下来，去对应包的GitHub，下载对应版本的releases）
下载完后执行：pip install file_name.whl（file_name是绝对地址）

之前https://www.lfd.uci.edu/~gohlke/pythonlibs/也可以下载whl，现在点进去是这样的下不了了

4. 还有一个很奇怪的方法：conda install -c conda-forge XXX

下载预训练权重

如果想要自训练：

LLaVA：https://huggingface.co/decapoda-research
SAM：https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pth

直接使用提供的权重：

LISA：https://huggingface.co/xinlai

有6个版本
在这里插入图片描述
我下载了LISA-13B-llama2-v0-explanatory（别下这个，我当时是因为作者只发布了两个版本，才下的，后面没用上，要下就选择v1的版本，内存大的下13B，小的下7B）

在这里插入图片描述

要用梯子，大文件要使用LFS，git clone不能克隆需要LFS的文件，大文件我都是一个个单独下的（漫长的下载过程orz

记得修改chat.py里权重的地址（图中第20行）
在这里插入图片描述

运行chat.py

不出意料的报错了
在这里插入图片描述

模型加载不成功，应该归因于我过小的内存orz，借了一个云服务器

尝试运行的过程就是不断产生新的错误orz

这里不将遇到的报错一一罗列（太多太杂了），只展示遇到的最后两个error，uu们如果有其他问题可以在评论区提出了，我看到了且会解决的，就回复。

下面先展示一下我使用的云服务器的配置

虚拟机

显卡

python版本

torch和torchvision

ERORR_1：
原因： 我刚拿到时cuda版本（如图）与PyThorch不兼容
解决： 升级CUDA（以及driver）的版本

# 禁用现有NVIDIA驱动程序并卸载
sudo systemctl stop nvidia-persistenced
sudo systemctl stop nvidia-fabricmanager
sudo apt-get remove --purge '^nvidia-.*'
# 关闭xserver
systemctl stop gdm.service
# 下载对应的CUDA包
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run
# 安装（一路默认安装）
sudo sh cuda_11.7.0_515.43.04_linux.run
# 安装完毕后，启动X Server
systemctl start gdm.service

ERROR_2：
谁能想到还是报OutOfMemoryError了呢orz（我说怎么就给我用了呢）
超出内存一般有几种解决办法
1. 减少模型的大小: 可以考虑减少模型的大小，例如通过选择更小的模型、减少模型的层数或通道数等方式，来降低内存需求。
2. 减少批量大小：尝试减少输入数据的批量大小，降低每次前向计算所需的内存。可以尝试减小batch_size参数的值。
3. 释放不需要的显存：在某些情况下，可能存在一些不需要的显存被占用，可以使用torch.cuda.empty_cache() 来释放不需要的显存。
4. 启用混合精度训练：可以尝试启用混合精度训练，即使用半精度浮点数 (torch.float16 代替默认的单精度浮点数 (torch.float32。这可以显著降低内存使用，但可能会影响模型的训练效果。
5. 调整 PyTorch 内存管理设置：可以尝试调整 PyTorch 的内存管理设置，例如通过设置max_split_size_mb 来避免内存碎片化。可以在 PyTorch 的文档中查找有关内存管理和PYTORCH_CUDA_ALLOC_CONF 的详细信息。
进行如下改动：
1. 将13B模型替换为7B模型
2. model_max_length：512–>256；lora_r：8–>4
3. 训练精度：bf16–>fp16
4. load_in：8bit–>4bit
5. 设置max_split_size_mb
  进入batch文件（vim ~/.bashrc）
  添加：export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:32
  esc、:wq、source ~/.bashrc

调整完后，终于是可以运行了
输入：

CUDA_VISIBLE_DEVICES=1 python chat.py --version='./LISA-7B-v1' --precision='fp16' --load_in_4bit

p.s. --version是你下载的模型地址，这里附上我项目目录
还有就是为了控制云服务器我使用的软件有：WinSCP（进行文件传输和代码修改）和PuTTY（命令行控制）

（下面是PuTTY运行截图)
在这里插入图片描述

根据提示输入propmt语句和待分割图片路径：

在这里插入图片描述

分割后的图像存储再了./vis_output文件夹中。

但是结果不正确，可能是调整了模型的缘故吧，没分割出LISA，分割出了ROSÉ

在这里插入图片描述

算了，这个模型就先到这里，等有再好一点的卡再试试，去读paper了。
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

项目记录

python

计算机视觉

图像处理

交互

本地部署体验LISA模型（LISA≈图像分割基础模型SAM+多模态大语言模型LLaVA）的相关文章

InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

c语言中%s的作用,C语言中%c与%s的区别与划分详解

c格式对应的是单个字符 s格式对应的是字符串例 char a char b 20 scanf c a 只能输入一个字符 scanf s b 可以输入一串不超过20字符的字符串 c对应类型为char s对应类型为char 即字符串用作输入
控制流图（Control Flow Graph）-（CFG）

1 定义百度百科控制流图 Control Flow Graph CFG 也叫控制流程图是一个过程或程序的抽象表现是用在编译器中的一个抽象数据结构由编译器在内部维护代表了一个程序执行过程中会遍历到的所有路径它用图的形式表示一个过
rave report设置不同报表的打印机

前几天用Fast report 进行了条形码打印所有条形码的界面都设置好了但是打印后的条形码不能被扫描枪识别到由于使用的标签比较小我也是根据标签的规格进行调整条形码的大小进行了缩小一半打印出来的条空也都挺清晰的但是就是不能识
停更说明

后期这个博客可能不太会更新文章了因为后期会在个人公众号上输出有关渗透测试的相关文章欢迎大家公众号搜索想走安全的小白进行关注我们一起学习一起进步谢谢大家支持
计算机视觉入门 - MacOS搭建Python的OpenCV环境并在VScode上使用的详细步骤（完整版）

目录过程下载VScode编辑器在VScode中安装Python插件安装Python解释器测试Python程序安装wget插件安装cmake插件安装opencv 通过程序来测试opencv 运行成功过程下载VScode编辑
Detecting Twenty-thousand Classes using Image-level Supervision

Detecting Twenty thousand Classes using Image level Supervision 摘要背景方法 Preliminaries Detic 具有图像类别的检测器 loss 技术细节扩展 Grad
台式机新装windows系统

学校正版软件网页下载正版windows操作系统 windows官网下载U盘系统工具根据电脑厂商按对应的Fn键启动bios设置设置启动项为U盘启动根据提示进行设置新装操作系统后无法联网没有以太网参考https www xiaozh
provide和inject的用法

1 provide与inject的功能通过provide与inject 可以把一个祖先组件指定的数据和方法传递给其所有子孙组件中 provide 和 inject 主要在开发高阶插件组件库时使用由于vue有 parent属性可以让子
Unity中用触摸控制物体旋转和放大

using UnityEngine using System Collections using System IO public class ScaleAndRotate MonoBehaviour private Touch oldTo
Python编程从入门到实践（九）-文件和异常

1 从文件中读取数据1 1 读取整个文件要读取文件需要一个包含几行文本的文件下面首先来创建一个文件它包含精确到小数点后30位的圆周率值且在小数点后每10位处都换行 pi digits txt 3 1415926535 897932
Flink异步IO第一讲

Async I O 是阿里巴巴贡献给社区的一个呼声非常高的特性于1 2版本引入主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题对于实时处理当需要使用外部存储数据染色的时候需要小心对待不能让与外部系统之间的交互延迟对
起底高危RCE漏洞“Follina”：Windows系统无一幸免

通告信息上周末独立网络安全研究团队 nao sec通过社交媒体表示发现一份从白俄罗斯提交至分析服务网站VirusTotal的恶意微软Word文档利用远程模板功能并通过 ms msdt MSProtocol URI模式执行恶意Powe
C/C++——new和delete的实现原理（详解）

C C 内存管理 1 C C 内存分布 2 C语言中动态内存管理方式 2 1malloc calloc realloc free区别 3 C 中动态内存管理 new和delete 3 1new delete操作内置类型 3 2new del
AD22使用笔记+积累库

一前言使用AD9习惯了但是需求逐渐上来了就不够用了好多快捷的新功能要新版本软件才能用所以升级使用AD22 目录 1 添加层之后中间层无法布线 2 新增快捷方式Ctrl W布线不用点图标了二环境 AD22 三正文 1 添加层
[系统安全] 二十六.WannaCry勒索病毒分析 (2)MS17-010漏洞利用及蠕虫解析

您可能之前看到过我写的类似文章为什么还要重复撰写呢只是想更好地帮助初学者了解病毒逆向分析和系统安全更加成体系且不破坏之前的系列因此我重新开设了这个专栏准备系统整理和深入学习系统安全逆向分析和恶意代码检测系统安全系列文章会更
SSH和SSM的区别

1 定义 SSH Spring Struts2 Hibernate spring 为事务层 Struts2为控制器 hibernate 负责持久层 SSM springMVC为控制器 spring 为事务层 MyBatis 负责持久都是当
gerber 文件格式 [一]

在电路设计这块目前还绕不开 gerber 文件的工程交互所以来了解一下目前官网的文档gerber layer format specification revision 2022 02 en pdf gerber 文件是一个ascii
时序预测

时序预测 MATLAB实现具有外生回归变量的ARIMAX时间序列预测含AR MA ARIMA SARIMA VAR对比目录时序预测 MATLAB实现具有外生回归变量的ARIMAX时间序列预测含AR MA ARIMA SARIMA V
机器学习（二）深度学习实战-使用Kera预测人物年龄

问题描述我们的任务是从一个人的面部特征来预测他的年龄用 Young Middle Old 表示我们训练的数据集大约有19906多张照片及其每张图片对应的年龄全是阿三的头像测试集有6636张图片首先我们加载数据集然后我们通过深度
本地部署体验LISA模型（LISA≈图像分割基础模型SAM+多模态大语言模型LLaVA）

GitHub地址 https github com dvlab research LISA 该项目论文paper reading https blog csdn net Transfattyacids article details 132

本地部署体验LISA模型（LISA≈图像分割基础模型SAM+多模态大语言模型LLaVA）

本地部署体验LISA模型（LISA≈图像分割基础模型SAM+多模态大语言模型LLaVA） 的相关文章

随机推荐

热门标签

本地部署体验LISA模型（LISA≈图像分割基础模型SAM+多模态大语言模型LLaVA）的相关文章