视频交互天花板:Track Anything-搭建流程及问题解决

2023-05-16

Track Anything解决了SAM对于连续图像中目标的一致性分割表现不佳的问题,而Track Anything将SAM推广至视频目标分割和追踪领域,并开发了交互界面,实现了少量交互解决目标问题。

本文不解读论文,仅介绍代码使用部分。

论文链接:http://arxiv.org/abs/2304.11968

代码链接:https://github.com/gaomingqi/Track-Anything

运行指南:Track-Anything/tutorials.md at master · gaomingqi/Track-Anything (github.com)


1.环境配置以及遇到的问题

官方readme中给出了配置方法:

值得一提的是requirement.txt文件,有两个需要使用git拉取的镜像,

在环境搭建的时候遇到了两个问题,分享一下解决方法。

1.1.读取模型文件出错

 在安装requirement和第一次运行app.py的时候,一共会拉取三个pth模型文件,但由于种种原因,可能导致拉取文件的时候中断导致文件不完整,代码会出现很多错误,反正只要是读取模型报错了,一定要检查这三个文件是否已经下载好,以及文件大小是否正确(非常重要!!!)

sam和XMem的权重文件都可以顺利下载,E2FGVI-HQ权重文件的下载可能要费点劲,因为代码中给出的github链接无法正常拉取pth文件,因此要找到E2FGVI的官方链接。 

MCG-NKU/E2FGVI: Official code for "Towards An End-to-End Framework for Flow-Guided Video Inpainting" (CVPR2022) (github.com)

百度网盘下载链接为E2FGVI-HQ-CVPR22.pth_免费高速下载|百度网盘-分享无限制 (baidu.com)

1.2.Windows平台无法连接0.0.0.0.6080

默认的图形界面地址是http://0.0.0.0:6080,因为我是Windows平台,打开这个链接是没有东西的,github中有类似的issue。Can this run under win11? Is it possible to make compatibility adjustments for Win11 in the future? · Issue #11 · gaomingqi/Track-Anything (github.com)

 如果是Windows平台,则需要将地址换成http://localhost:6080或者http://127.0.0.1:6080

需要在app.py文件中找到第599行,将server_name参数由"0.0.0.0"改为"localhost",即可显示正常的界面。

iface.launch(debug=True, enable_queue=True, server_port=args.port, server_name="localhost")

修改后运行app.py文件,我的电脑配置比较菜,只有CPU,第一次运动的时候卡在loading很久很久,不知道是什么原因,等了大概半个小时后,再刷新就可以看到用户界面了。如果卡住了,只要不报错,就耐心等待。

2.视频上传

上传视频后首先点击“Get video info”,得到视频信息。

 以下是上传的视频信息。

3.SAM选取分割目标

Track-Anything/tutorials.md at master · gaomingqi/Track-Anything (github.com)

该链接中有非常详细的使用步骤,简单翻译一下:

3.1.选取视频结束帧;

3.2.选取视频开始帧,注意结束帧与开始帧的顺序;

3.3.点选目标

  1. 选择点击对象是Positive还是Negative在左下角的视频点击要分割的目标,等待;
  2. 如果分割出的mask符合要求,则跳至5,否则跳至3;
  3. 如果当前mask没有完全覆盖目标,则在Positive模式下继续选择目标。如果当前mask超出目标,则切换至Negative模式,点选需要排除的背景。
  4. 如果分割出的mask符合要求,则跳至5,否则跳至3;
  5. 点击“Add mask”。

点击“Add mask”后,Mask selection中会显示新建的mask和之前所有的mask

下拉Mask selection选项框,可以选择是否将所选mask列入Tracking列表中,右下角的图像也会实时显示。

 4.开始追踪

点击“Tracking”,开始追踪。

 进度条:

追踪结果:

 5.修补图像

在这一步建议调整视频的resize ratio。

 如果无法运行则会出现如下报错,但是视频文件还会保存,和原始视频一样,没有修补效果。

Error! You are trying to inpaint without masks input. Please track the selected mask first, and then press inpaint. If VRAM exceeded, please use the resize ratio to scaling down the image size.

inpaint效果很震撼,虽然一眼能看出来像是穿了隐身衣,但还是很厉害的。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

视频交互天花板:Track Anything-搭建流程及问题解决 的相关文章

  • 【自学Linux】Linux一切皆文件

    Linux一切皆文件 Linux一切皆文件教程 Linux 中所有内容都是以文件的形式保存和管理的 xff0c 即一切皆文件 xff0c 普通文件是文件 xff0c 目录是文件 xff0c 硬件设备 xff08 键盘 监视器 硬盘 打印机
  • 链路聚合--Eth-Trunk

    链路聚合技术是解决二层交换机多条链路产生环路的问题 xff0c 不仅避免了环路问题 xff0c 还提高了数据的传输效率 链路聚合分为两种模式 xff1a 手动模式和LACP模式 手动模式 手动模式就是人工的方式去创建Eth Trunk和成员
  • 块元素和内联元素的特点和区别

    lt css基础之块级元素和内联元素 块级元素的特点 xff1a 1 占一整行 2 是一个矩形 3 可定义宽度和高度 xff0c 内边距 xff0c 外边距等 4 其display属性默认为block 内联元素的特点 xff1a 1 并不占
  • 在vs code中使用git

    在vs code使用git 1 下载安装git 下载地址 xff1a Git Downloads 下载后安装选择默认选项即可 2 安装完成后 xff0c 设置git的环境变量 xff1a 在系统的path环境变量中添加git exe的安装目
  • Ubuntu下压缩与解压缩

    一 linux下常用的压缩格式 linux下常用的压缩扩展名有 xff1a tar tar bz2 tar gz 二 Windows下7ZIP软件的安装 因为Linux下很多文件是bz2 gz结尾的文件 xff0c 因此需要在windows
  • VIO的图优化模型

    因子图结构 VIO在纯视觉的基础上添加了IMU约束 xff0c 因子图如下 xff1a 状态变量 VIO中 xff0c 待估计的状态变量为 i 61 R
  • CMakeLists写法总结

    个人最近学习了一些关于常见的CMakeLists的一些写法格式 xff0c 分享给大家 CMAKE MINIMUM REQUIRED VERSION xxx 该项表示要求CMAKE的最低版本号 PROJECT aim1 此项表示所建立的工程
  • Qt两种传参形式(信号槽传参、界面传参)

    一 UI界面传参 在Qt中传输数据通常有两种形式 xff0c 一种是把待传输的数据先保存到UI界面的控件中 xff0c 然后子类从界面中读取数据 使用该控件作为参数传递承载 1 首先将计算出的数值传到控件中 ui span class to
  • Intel RealSense T265 Windows10 环境下运行

    Intel RealSense T265 Windows10 环境下运行 最近从某宝上买了个T265 体验了下 intel的硬件开发 卖家怕我不会用还专门问了我会不会用 intel的包装里面不带那个很酷炫的三脚架 xff01 xff01 x
  • TB6612FNG电机驱动替代方案

    最近东芝的一个很常用的电机驱动芯片TB6612FNG停产 xff0c 这是一个全桥驱动芯片 xff0c 经过测试 xff0c 两款比较好的替代芯片有ST公司的L298系列 xff0c L293D系列和VNH5019系列的全桥驱动器 这里的完
  • 关于链表中头指针和头结点的理解

    线性表使用顺序 xff08 数组 xff09 存储时有个弊端 xff0c 那就是在插入和删除时需要大量的移动数据 xff0c 这显示是非常消耗时间的 xff0c 所以可以采用链式存储 xff0c 即有一个指针域 xff08 单链表 xff0

随机推荐