GODIVA论文阅读

2023-11-07

论文链接:GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions

摘要

从文本生成视频任务是极具挑战性的任务,由于其训练的高计算需求和答案无限性难以评估。当前的工作通常在简单或小型数据集上进行实现,泛化能力非常有限。本工作提出了GODIVA,一种开放域文本到视频的预训练模型,可以使用三维稀疏注意机制以自回归的方式从文本中生成视频。在 Howto100M 上预训练模型,这是一个包含超过 13600 万个文本-视频对的大规模文本-视频数据集。实验表明,GODIVA 不仅可以在下游视频生成任务上进行微调,而且在zero-shot的文本上也具有良好的零样本能力。本文还提出了一种名为相对匹配 (Relative Matching/RM) 的新指标来自动评估视频生成质量。列出并讨论了一些挑战作为未来的工作。

引言

“创造力是人类智力的一个基本特征,也是人工智能的挑战”。图像和文本生成的最新进展显示了机器的巨大创造力,包括GANs、VAE、RNN和自注意力。然而,AI 代理创建视频仍然是一个挑战,尤其是对于现实世界的多样性。生成视频要求机器不仅创建大量像素,而且还确保它们之间的语义一致性。

从文本生成视频的挑战,即文本到视频生成 (T2V) 任务。给定一个自然描述,T2V 要求机器理解它并创建语义一致的视频。尽管不是太多,但仍有一些工作使用 GAN 来研究这个主题。Video Generation From TextTo Create What You Tell: Generating Videos from Captions使用带有3D卷积的GAN来生成固定长度的低分辨率视频。Conditional GAN with Discriminative Filter Generation for Text-to-Video Synthesis使用条件过滤器来生成不同长度的视频。IRC-GAN: Introspective Recurrent Convolutional GAN for Text-to-video Generation将 LSTM 单元与 2D 卷积网络相结合,对帧质量和时间一致性进行建模。然而,这些工作在简单或小型数据集上进行了实验,泛化能力有限。

除了基于 GAN 的方法外,VQ-VAE 是另一个有前途的研究方向,并且在生成图像和视频方面取得了很大进展,尤其是用于文本到图像生成的 DALL-E。它成功地从文本中生成高质量的图像。本文转向更具挑战性的文本到视频生成任务,其中必须考虑视觉信息的时空连贯性。最近的一些工作Latent Video TransformerPredicting Video with VQVAEVideoGen: Generative Modeling of Videos using VQ-VAE and Transformers
将VQ-VAE应用于视频预测任务——预测给定过去的未来视频帧。本文是第一个为 T2V 任务设计一个 VQ-VAE 预训练模型。

本文提出了 GODIVA,使用 VQ-VAE 和三维稀疏注意力从文本中生成开放域视频。首先,训练一个VQ-VAE自动编码器来表示具有离散视频标记的连续视频像素。然后,使用语言作为输入训练三维稀疏注意力模型,将离散视频标记作为标签来生成视频,考虑时间、列和行信息,如图1所示。
在这里插入图片描述

图1 GODIVA模型的一个简单说明,该模型具有三维稀疏注意机制,用于文本到视频生成任务。视频的自动回归预测考虑了四个方面:输入文本、之前生成的帧的相同位置、同一帧上的相同行、同一帧上的相同列。

本文的贡献有三个方面:(1) 提出了一个开放域文本到视频的预训练模型,该模型具有三维稀疏注意机制,可以显著降低计算成本;(2) 提出了一种新的相对匹配度量(RM),该度量可以同时评价视频生成的视觉质量和语义匹配;(3) 在HowTo100M数据集上对提出的模型进行了预训练,并演示了其在微调和零镜头设置下的视频生成能力。

相关工作

本节简要回顾视频生成的相关工作。首先回顾了近年来被广泛研究的视频到视频生成任务。然后回顾文本到图像和文本到视频的生成。强调了先前模型和本文模型之间的差异。

Video-to-video generation

大多数视频生成研究都集中在视频预测任务上。输入视频的前几帧,视频预测任务预测视频的以下帧。称之为视频到视频 (V2V) 生成,以便与文本到视频 (T2V) 生成进行比较。

现有的视频到视频生成可以分为三类

  • 确定性方法使用 RNN 和 CNN 直接对易处理密度进行建模,并利用视频的空间和时间信息。PredNet通过整合之前的预测来预测未来的框架。PredRNN提出了堆叠的ConvLSTM,它在堆栈中的各层之间共享隐藏状态。最近,ContextVP在所有可能的方向上聚合每个像素的上下文信息
  • 基于GAN的方法避免了显式密度函数,使用生成器生成视频并使用鉴别器判断视频是否生成。VGAN是第一个使用gan生成视频的模型。之后,TGAN将时空生成器分成时间序列模型和空间模型生成视频。然后,MoCoGAN将潜在空间分解为运动子空间和内容子空间,从而更有效地生成视频。最近TGAN2使用其特定的鉴别器训练每个子生成器
  • VAE 方法通过捕获低维表征 z z z并优化似然下界来对近似密度进行建模。SV2P捕获为每个预测序列保持固定的一组潜在变量中的序列不确定性。然后,SVG使用了每一步潜在变量 (SVG-FP) 和具有学习先验 (SVG-LP) 的变体,它使先验在某个时间步成为前一帧的函数。Latent Video Transformer对视频的每一帧进行编码并预测离散的视频特征。

本文模型可以归类为基于 VAE 的模型。与最近的基于VQ-VAE的工作Latent Video Transformer不同,本文模型工作专注于文本到视频的生成任务,而不是视频到视频的生成任务。本文模型还加入了一个三维稀疏注意来模拟视觉标记之间的稀疏关系。

Text-to-image generation

近年来,文本到图像的生成得到了广泛的研究。最相似的工作是DALL-E,它成功地从文本中生成高质量的图像。本文转向一个更具挑战性的文本到视频生成任务,该任务同时考虑了视觉信息的时空连贯性。

Text-to-video generation

与视频到视频的生成不同,文本到视频的生成研究较少。首先,Video Generation From Text和To Create What You Tell: Generating Videos from Captions使用带有3D卷积的GAN来生成固定长度的低分辨率视频。然后,Conditional GAN with Discriminative Filter Generation for Text-to-Video Synthesis使用条件过滤器来生成不同长度的视频。IRC-GAN: Introspective Recurrent Convolutional GAN for Text-to-video Generation将 LSTM 单元与 2D 卷积网络相结合,对帧质量和时间一致性进行建模。

大多数文本到视频生成方法使用基于 GAN 的方法,本文模型为此任务结合了 VQ-VAE。据知,这是第一项使用 VQ-VAE 来完成这项任务的论文。

GODIVA方法

x x x是一个可观察的视频,使用离散潜在代码 z z z来表示它,其维度较低。下文展示如何使用VQ-VAE以 z z z来表示 x x x,并对 P ( z ∣ t ) P(z|t) P(zt)建模从文本中生成视频,其中 t t t表示给定文本。

逐帧视频自动编码器

对于一个有 L L L帧的输入视频 x ∈ R L × H × W × C x \in R^{L×H×W×C} xRL×H×W×C,第 l l l x ( l ) x^{(l)} x(l)用Eq.(1)表示
y ( l ) = E ( x ( l ) ) , (1) y^{(l)}=E(x^{(l)}),\tag{1} y(l)=E(x(l)),(1)
其中 y ( l ) ∈ R ( h w ) × d B y^{(l)} \in R^{(hw)×d_{B}} y(l)R(hw)×dB h × w h×w h×w区域的隐变量。然后,对 y ( l ) y^{(l)} y(l)进行量化,得到更紧凑的潜在表示,表示为Eq.(2)
z i ( l ) = arg ⁡ min ⁡ j ∣ ∣ y i ( l ) − B j ∣ ∣ 2 , (2) z_{i}^{(l)}=\underset{j}{\arg \min}||y_{i}^{(l)}-B_{j}||^{2}, \tag{2} zi(l)=jargmin∣∣yi(l)Bj2,(2)
其中 B ∈ R K × D B∈ R^{K×D} BRK×D是码本,在码本中,对潜在变量的第i个区域 y i ( l ) ∈ R d B y^{(l)}_{i} ∈ R^{d_{B}} yi(l)RdB进行搜索,以找到最近的索引 z ( l ) ∈ R h w z^{(l)}∈R^{hw} z(l)Rhw。然后,将 z ( l ) z^{(l)} z(l)嵌入到Eq.(3)中的码本中。
b ( l ) = B [ z ( l ) ] , (3) b^{(l)} = B[z^{(l)}], \tag{3} b(l)=B[z(l)],(3)
其中 b ( l ) ∈ R ( h w ) × d B b^{(l)} \in R^{(hw)×d_{B}} b(l)R(hw)×dB z ( l ) z^{(l)} z(l)是嵌入。接下来,将 b ( l ) b^{(l)} b(l)发送到解码器,解码器重建原始视频帧,如式(4)所示。
x ^ ( l ) = D ( b ( l ) ) , (4) \hat{x}^{(l)} = D(b^{(l)}), \tag{4} x^(l)=D(b(l)),(4)
其中 x ^ ( l ) ∈ R H × W × C \hat{x}^{(l)} \in R^{H×W×C} x^(l)RH×W×C是重建帧。最后,VQ-VAE可以在如Eq.(5)所示的目标中进行训练。
L V Q − V A E = 1 L ∑ l = 1 L ∣ ∣ x ( l ) − x ^ ( l ) ∣ ∣ 2 2 + ∣ ∣ s g [ y ( l ) ] − b ( l ) ∣ ∣ 2 2 + β ∣ ∣ y ( l ) − s g [ b ( l ) ] ∣ ∣ 2 2 , (5) L^{VQ-VAE} = \frac{1}{L} \sum^{L}_{l=1}||x^{(l)}-\hat{x}^{(l)}||^{2}_{2} + ||sg[y^{(l)}]-b^{(l)}||^{2}_{2}+\beta||y^{(l)}-sg[b^{(l)}]||^{2}_{2}, \tag{5} LVQVAE=L1l=1L∣∣x(l)x^(l)22+∣∣sg[y(l)]b(l)22+β∣∣y(l)sg[b(l)]22,(5)
其中三项分别为重建损失、codebook损失和commitment损失。 β β β是权重因子。 S g Sg Sg为停止梯度算子。

在这里插入图片描述

图2 GODIVA原理图

图2中,为了生成 W × H = 64 × 64 W × H = 64 × 64 W×H=64×64像素和 L = 10 L = 10 L=10帧的视频,VQ-VAE离散表示的大小为 w × h = 16 × 16 w × h = 16 × 16 w×h=16×16。因此,模型需要总共生成 M = 2560 M = 2560 M=2560个tokens。在生成第 8 个视觉token时,模型只关注前一帧(第 4 个视觉token)或同一帧中的前一个行或列标记(第 7 和第 6 个视觉token)中的相同位置token。

GODIVA视频生成器

本节中专注于通过对条件概率 P ( z ∣ t ) P(z|t) P(zt)建模从文本中生成视频。给定一个具有 N N N个标记的输入文本 t ∈ R N t ∈ R^{N} tRN,文本的嵌入是通过考虑位置信息来计算的,如Eq.(6)所示:
t e = E t [ w o r d i d x ] + P ( t ) [ 0 , 1 , . . . , N − 1 ] , (6) t^{e} =E^{t}[word_{idx}]+P^{(t)}[0,1,...,N-1], \tag{6} te=Et[wordidx]+P(t)[0,1,...,N1],(6)
其中 E t ∈ R S × D E^{t} \in R^{S×D} EtRS×D是文本嵌入矩阵, S S S是文本词典大小, P ( t ) ∈ R N × D P^{(t)} \in R^{N×D} P(t)RN×D是文本位置嵌入矩阵, t e ∈ R N × D t^{e} \in R^{N×D} teRN×D是最后的文本嵌入。使用预训练的VQ-VAE编码器对GT视频中的每帧进行编码,如Eq.(7)所示:
b ( l ) = B [ arg ⁡ min ⁡ j ∣ ∣ E ( x ( l ) ) j − B j ∣ ∣ 2 ] , (7) b^{(l)}=B[\underset{j}{\arg \min}||E(x^{(l)})_{j}-B_{j}||^{2}], \tag{7} b(l)=B[jargmin∣∣E(x(l))jBj2],(7)
其中GT视频序列 x ∈ R L × H × W × C x \in R^{L×H×W×C} xRL×H×W×C被编码为一系列离散的潜在视觉token嵌入 b ∈ R M × d B b \in R^{M×d_{B}} bRM×dB M = L × h × w M = L×h×w M=L×h×w是视觉tokens的最大值。Eq.(8)计算带有位置信息的算视频嵌入:
v e = L i n e a r ( b ) + P ( v ) [ 0 , 1 , . . . , M − 1 ] , (8) v^{e}=Linear(b)+P^{(v)}[0,1,...,M-1], \tag{8} ve=Linear(b)+P(v)[0,1,...,M1],(8)
其中线性层将 z z z映射到 L i n e a r ( z ) ∈ R M × D Linear(z) \in R^{M×D} Linear(z)RM×D,和 t e t^{e} te有相同的维度。 P ( v ) ∈ R M × D P^{(v)} \in R^{M×D} P(v)RM×D是视频位置嵌入矩阵。 v e ∈ R M × D v^{e} \in R^{M×D} veRM×D是最后的GT视频嵌入。通过自回归的方式可以训练一个解码器生成视频,如公式9所示:
v m e = D e c o d e r ( t e , v < m e ) , (9) v^{e}_{m}=Decoder(t^{e}, v^{e}_{<m}), \tag{9} vme=Decoder(te,v<me),(9)
其中 v m e ∈ R D v^{e}_{m} \in R^{D} vmeRD是在第m步抓换后的视觉嵌入。注意 M M M是一个很大的数字,特别是对于真实的视频。为了减少计算,在Eq.(10)中引入了三维稀疏注意层:
h i , j , l ( T ) = S A ( T ) ( v i , j , < l e ) , h i , j , l ( R ) = S A ( R ) ( v i , j , < l e ) , h i , j , l ( C ) = S A ( C ) ( v i , j , < l e ) . (10) \begin{align*} h^{(T)}_{i,j,l}=SA^{(T)}(v^{e}_{i,j,<l}), \\ h^{(R)}_{i,j,l}=SA^{(R)}(v^{e}_{i,j,<l}), \\ h^{(C)}_{i,j,l}=SA^{(C)}(v^{e}_{i,j,<l}). \\ \end{align*} \tag{10} hi,j,l(T)=SA(T)(vi,j,<le),hi,j,l(R)=SA(R)(vi,j,<le),hi,j,l(C)=SA(C)(vi,j,<le).(10)
其中 S A SA SA表示自注意力层。 T , R , C T,R,C T,R,C分别表示时间,行和列。 h i , j , l ( T ) , h i , j , l ( R ) , h i , j , l ( C ) ∈ R D h^{(T)}_{i,j,l},h^{(R)}_{i,j,l},h^{(C)}_{i,j,l} \in R^{D} hi,j,l(T),hi,j,l(R),hi,j,l(C)RD ( i , j , l ) (i,j,l) (i,j,l)步的隐状态。请注意,将步骤的符号从 m m m更改为 ( i , j , l ) (i, j, l) (i,j,l),以便更清楚地表达这三个稀疏注意力。由Eq.(10)可以看出,每个轴的稀疏注意只关注前一个轴上的索引,而不是全局轴上的索引。因此,计算复杂度从 O ( ( L h w ) 2 ) O((Lhw)^{2}) O((Lhw)2)降低到 O ( L h w ( L + h + w ) ) O(Lhw(L + h + w)) O(Lhw(L+h+w))。然后,将三个注意层交替堆叠,如Eq.(11)所示:
h i j l = S A T , S A R , S A C , S A T , . . . , S A C ⏟ R   l a y e r s ( h < = i , < = j , < = l ) , (11) h_{ijl}=\underbrace{SA^{T},SA^{R},SA^{C},SA^{T},...,SA^{C}}_{R \, layers}(h_{<=i,<=j,<=l}), \tag{11} hijl=Rlayers SAT,SAR,SAC,SAT,...,SAC(h<=i,<=j,<=l),(11)
其中 h ∈ R M × D h \in R^{M×D} hRM×D是这些堆叠注意力层的输出隐藏状态。然后, h h h被送入到线性层以获得预测的视觉标记的logits,如Eq.(12)所示:
P ( z ^ ∣ t ) = s o f t m a x ( L i n e a r ( h ) ) , (12) P(\hat{z}|t) = softmax(Linear(h)), \tag{12} P(z^t)=softmax(Linear(h)),(12)
其中线性层将 h h hd的维度映射到VQ-VAE词典大小 L i n e a r ( h ) ∈ R M × K Linear(h) \in R^{M×K} Linear(h)RM×K z ^ ∈ R M \hat{z} \in R^{M} z^RM是预测的视觉tokens。最后模型使用交叉熵损失训练,如Eq.(13)所示:
L = − 1 M ∑ i = 1 M z i log ⁡ ( P ( z ^ ∣ t ) ) (13) L=-\frac{1}{M} \sum^{M}_{i=1}z_{i} \log(P(\hat{z}|t)) \tag{13} L=M1i=1Mzilog(P(z^t))(13)

实验

数据集

在Howto100M数据集上预训练GODIVA,该数据集包含超过136万个文本-视频对。在 MSR-VTT 数据集上评估,该数据集由 10000 个视频clip组成,每个视频clip有 20 个人工注释的标题。还在Moving Mnist数据集和Double Moving Mnist数据集上从头开始训练GODIVA,两者都是从Mnist数据集自动生成的。原始的Moving Mnist数据集有两种运动:上下和左右。本文增加了四个方向:先左后右、先右后左、先上后下、先下后上。

评价指标

定量评估文本到视频生成模型的性能具有挑战性。这主要是由于两个原因:首先,给定一个文本,有无数对应的视频,很难客观判断哪个更好。其次,评估指标应考虑生成视频的视觉质量和语义匹配。为了处理这些挑战,引入了两种指标:基于CLIP的Similarity (SIM) 度量和相对匹配 (RM) 度量自动评估指标以及视觉现实(VR)和语义一致性(SC)度量的人工评估指标

自动评估指标

判断生成视频质量的关键因素是它是否匹配文本。使用预训练的视觉语言匹配模型将不可避免地引入其领域数据的偏差。由于最近的零样本工作 CLIP,它为视觉文本匹配提供了强大的零样本能力,从而减少了这些数据偏差。由于CLIP是在图像和文本之间预先训练的,计算文本和视频的每一帧之间的相似度,然后将平均值作为Eq.(14)中的语义匹配。
S I M ( t , v ^ ) = 1 L ∑ l = 1 L C L I P ( t , v ^ ( l ) ) , (14) SIM(t, \hat{v})=\frac{1}{L} \sum^{L}_{l=1}CLIP(t, \hat{v}^{(l)}), \tag{14} SIM(t,v^)=L1l=1LCLIP(t,v^(l)),(14)
其中 t t t表示输入文本。 v ^ \hat{v} v^是预测的有 L L L帧的视频。注意 S I M SIM SIM仅仅 提供语义匹配的绝对值。为了进一步降低CLIP模型的影响,将SIM除以文本和GT真实视频之间的相似度,得到相对匹配分数,称之为相对匹配(RM)度量,如Eq.(15)所示:
R M ( t , v ^ ) = S I M ( t , v ^ ) S I M ( t , v ) , (15) RM(t, \hat{v})=\frac{SIM(t, \hat{v})}{SIM(t, v)}, \tag{15} RM(t,v^)=SIM(t,v)SIM(t,v^),(15)
其中 v v v是有 L L L帧的GT视频。 R M RM RM指标揭示了与领域无关的生成质量,因为如果生成的视频与文本更相关,显然具有更高的 R M RM RM值。如果生成的视频与文本无关或质量低,则 R M RM RM值将较低。

人工评估指标

为了进行人工评估,邀请 200 名评估者作为测试人员并进行人工评估。 { M 1 , M 2 , . . . , M N } \{M_{1}, M_{2},..., M_{N} \} {M1,M2,...,MN}是一组要评估的模型, T T T是测试集中的样本数。为了减少主观偏差,要求测试者将两个模 ( M i , M j ) (M_{i},M_{j}) MiMj生成的两个视频 ( v i , v j ) (v_{i},v_{j}) vivj的视觉真实性(VR)和语义一致性(SC)分别与相同的查询 q q q进行比较,如Eq.(16)、(17)所示:
在这里插入图片描述

实施细节

输入视频的大小为 L = 10 , H = 64 , W = 64 , C = 3 L = 10, H = 64, W = 64, C = 3 L=10H=64W=64C=3。Eq.(1)中的编码器 E E E和Eq.(4)中的解码器 D D D都是用两个CNN层实现的。核大小为 4,步幅为 2。因此潜在变量的大小为 h × w = 16 × 16 h × w = 16 × 16 h×w=16×16。潜在变量维度 d B = 128 d_{B} = 128 dB=128。Q-VAE码本共有 K = 10000 K = 10000 K=10000个tokens。VQ-VAE 模型在ImageNet上进行了预训练,学习率为1e-3,批量大小为32。注意,当对 Moving Mnist 数据集进行实验时,在该数据集上训练另一个 VQ-VAE。发现这将导致更好的生成性能。

输入文本的最大长度为 N = 35 N = 35 N=35。维度 D = 1024 D = 1024 D=1024。视觉标记的最大大小为 M = 2560 M = 2560 M=2560。Eq.(10)中的Self-Att使用16个注意头。GODIVA 在Eq.(11)中总共有 R = 12 R = 12 R=12层。 GODIVA 模型在具有 64 V100 GPU 基于Howto100M 数据集进行预训练。它在具有 8 个 V100 GPU 的 MSR-VTT 数据集上进行了微调。两种设置的批量大小为 32,学习率为 5e-4。

定性结果

从两个方面定性地评估本文模型。首先,通过将 GODIVA 与两种先前的方法进行比较来评估模型的零样本能力:T2V和TFGAN。这两种方法都是在从Kinetics和Youtube视频的清理创建的真实数据集上训练的。如图3所示,对于相同的查询“Play golf on grass”,T2V 以 64×64 的分辨率成功地生成了“playing golf”动作和草,但结果看起来很模糊(参见第一行)。TFGAN 以 128×128 的分辨率成功训练并生成更高质量的结果(参见第二行)。T2V 和 TFGAN 都生成与文本相关的视频,但生成的帧在单个场景中,帧之间的差异并不显着。这限制了神经模型的创造力。有趣的是,GODIVA 不仅生成与文本相关的视频,还生成更改场景(参见第三行和第四行)。例如,GODIVA(64×64) 首先显示草地场,然后给运动员一个特写镜头,最后是击中高尔夫球的动作。请注意,GODIVA(64×64) 和 GODIVA(128×128) 是不同的模型,因此它们生成了完全不同的视频。最后一行给出了 GODIVA 生成的另一个 (128×128) 分辨率结果。总的来说,GODIVA 能够生成具有清晰帧和连贯语义的视频。
在这里插入图片描述

图3 生成视频对比

其次,通过比较GODIVA和几种基于GAN的方法来评估未见过的视频生成能力。图(4)中的模型分别在Moving MNIST数据集和Double Moving MNIST数据集上进行训练。注意在训练集中没有一个视频的caption是“Digit 9 is moving down than up”,可能有一些像是的变体,如“Digit 9 is moving left and right”、“Digit 3 is moving down than up”。GODIVA 成功地生成了语义正确的结果(参见左侧部分的最后一行)。这表明 GODIVA 学习捕获文本和视频之间的语义对齐,而不仅仅是在训练集中搜索视频以找到与输入图像最相似的视频。此外,与最先进的 IRC-GAN 方法相比,GODIVA 生成高质量的视频。数字“9”在空间和时间上都是一致的。右侧Double Moving MNIST的另一个示例显示了类似的现象。
在这里插入图片描述

图4

定量结果

通过自动和人工指标定量评估本文模型。为了验证RM度量的有效性,首先在图5(a)中绘制文本和地面真实视频之间的SIM分数。从对角线可以看出,SIM 基本上能够区分语义相似的视频和其他视频。表1显示了 GODIVA 不同设置的消融研究。在 Howto100M 数据集上预训练 GODIVA,并在 MSR-VTT 数据集上对其进行微调。发现 SIM 和 RM 与人类评估指标具有相同的趋势。第一行显示了输入文本和真实视频的结果。第二行表明,GODIVA 的足够规模至关重要。 GODIVA(6 层)表现出比默认的 GODIVA 设置(12 层)更差的性能。下三行显示了三维注意力的有效性。发现 Row Attention 是最重要的。在DALL-E之后,在推理过程中Eq.(12)的前10个概率中随机抽取32次,并使用CLIP排名找到最佳生成的视频。然后在 RM 指标中,性能显着提高到 98.34。
在这里插入图片描述

图5 在 16 个随机样本中计算的 SIM 分数;在子图 (a) 和 (b) 中,行表示查询,列表示视频

在这里插入图片描述

表1 MSR-VTT数据集的定量结果,所有报告值都乘以100

结论

本文提出了一种三维稀疏注意,使用VQ-VAE离散视觉标记从自然描述中生成开放域视频,提出了一种新的相对匹配度量来自动评估生成质量。实验表明,本文模型不仅可以在下游视频生成任务上进行微调,而且在看不见的文本上也具有良好的零样本能力。然而,仍然存在一些挑战:首先,生成高分辨率长视频仍然是一个挑战。当只生成具有10帧的64 × 64分辨率视频时,视觉tokens的总数 M M M已达到2560。其次,自动评估文本到视频的生成任务仍然是一个挑战。未来,基于视频的CLIP度量可以为文本和视频的语义一致性提供更准确的结果。第三,基于 GAN 的方法显示出文本到视频生成的巨大潜力(见图4),它们对开放域数据集的生成能力仍然是一个良好的研究方向。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

GODIVA论文阅读 的相关文章

  • 论文阅读_扩散模型_DM

    英文名称 Deep Unsupervised Learning using Nonequilibrium Thermodynamics 中文名称 使用非平衡热力学原理的深度无监督学习 论文地址 http arxiv org abs 1503
  • BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

    参考 BERT原文 1810 04805 BERT Pre training of Deep Bidirectional Transformers for Language Understanding arxiv org 强推 李宏毅202
  • SCTracker 跟踪论文阅读笔记

    SCTracker 跟踪论文阅读笔记 SCTracker Multi object tracking with shape and confidence constraints 论文链接 未开源状态 论文主要更新点围绕shape const
  • 【论文写作】——设置正文和标题格式

    目录 一 设置正文格式 二 设置标题格式 一 设置正文格式 找到功能区的样式 右键正文样式 点击修改 左下角选择字体 设置字体的字形字号 也可选择对正文的段落格式进行修改 二 设置标题格式 可直接将文中同一级别的大纲进行折叠 然后直接设置同
  • word论文:参考文献字间距太大的处理方法

    全选参考文献 右键选择 段落 选择中文版式 设置如下图所示 换行 全选 字符间隔 只选择自动调整中文与数字的间距 然后就完成了参考文献间距变动问题 重点 允许西文换行
  • 【论文阅读】【因果关系】

    文章目录 因果理论的三个层级 张含望 因果推理在计算机视觉中的进展 浙江大学助理教授况琨 因果推理和稳定学习 因果理论的三个层级 该篇是本人入门因果 CV的随笔 期间会借鉴记录别人的理解 引用的部分会给出原始连接 如有侵权请联系我删除 Ju
  • Zotero 知网 PDF与CAJ 抓取模式切换

    Zotero可以通过安装茉莉花插件 jasminum 一键安装https github com l0o0 translators CN内的中文翻译器 从而实现对知网文献元数据以及相应PDF的抓取 但是在使用过程中我发现 由于知网对于学位论文
  • 定位相关论文阅读:神经惯性定位(二)Neural Inertial Localization

    如果您对这个论文不太了解 想从总体上先了解这个论文的情况 可以前往Neural Inertial Localization论文简述 快速预览 0 Abstract 0 1 逐句翻译 0 2 总结 1 Introduction 1 1逐句翻译
  • [论文阅读笔记77]LoRA:Low-Rank Adaptation of Large Language Models

    1 基本信息 题目 论文作者与单位 来源 年份 LoRA Low Rank Adaptation of Large Language Models microsoft International Conference on Learning
  • 火爆科研圈的三维重建技术:Neural radiance fields (NeRF)

    如果说最近两年最火的三维重建技术是什么 相信NeRF 1 是一个绝对绕不过去的名字 这项强到逆天的技术 一经提出 就被众多研究者所重视 对该技术进行深入研究并提出改进已经成为一个热点 仅仅过了不到两年的时间 NeRF及其变种已经成为重建领域
  • 论文笔记 2023.5.22

    图像分类的深度卷积神经网络模型综述 图像分类的过程 图像预处理 图像特征提取 人工提取 传统图像分类算法 卷积操作提取 卷积神经网络 使用分类器对图像进行分类 以图像分类为载体 深度卷积神经网络模型主要包括以下四个类别 1 经典深度卷积神经
  • EfficientNet详解

    EfficientNets EfficientNets NAS neural architecture search Single Scaling Compound Scaling EfficientNet Rethinking Model
  • 论文笔记——HRFormer

    摘要 本文提出了一种高分辨率Transformer HRFomer 它在密集的预测任务中学习高分辨率表示 而原来的Vison Transformer则产生低分辨率表示 具有高内存和计算成本 作者利用了高分辨率卷积网络 HRNet 中引入的多
  • DVCon US 2022论文集合

    2022年DVCon US Paper共55篇 已开放下载论文全集 在此整理各篇论文的摘要和下载链接 方便大家获取和交流 也可后台私信获取 1 A Comparative Study of CHISEL and SystemVerilog
  • 基于孪生网络的单目标跟踪持续汇总

    基于Siamese Network的单目标跟踪持续汇总 Visual Object Tracking 从SiamFC开始 涌现了一大批基于孪生神经网络 Siamese Network 的跟踪算法 其中包括多目标跟踪和单目标跟踪 本文将以Si
  • 计算机视觉大作业:EdgeConnect论文阅读

    复现 一 环境配置 运行环境 Python 3 6 6 PyTorch 1 10 0 NVIDIA GPU CUDA 10 2 cuDNN 8 2 Python包 numpy 1 14 3 mkl scipy 1 0 1 future 0
  • Knowledge Distillation & Student-Teacher Learning for Visual Intelligence: A Review & New Outlooks

    论文地址 http arxiv org abs 2004 05937 github地址 无 这是篇关于知识蒸馏的综述文章 知识蒸馏被认为是用于模型压缩的非常有效的一种方式 本文作者从模型压缩和知识迁移两个应用场景概述了近年来对知识蒸馏的研究
  • 论文笔记:Region Representation Learning via Mobility Flow

    2017 CIKM 1 摘要和介绍 使用出租车出行数据学习区域向量表征 同时考虑时间动态和多跳位置转换 gt 通过flow graph和spatial graph学习表征 出租车交通流可以作为区域相似度的一种 A区域和B区域之间流量大 gt
  • SimSiam:Exploring Simple Siamese Representation Learning

    Siamese网络最大化了一个图像的两个增强之间的相似性 服从于避免崩溃解的某些条件 在本文中 SimSiam即使 不使用以下任何一项也可以学习有意义的表示 i 负样本对 ii 大批量 iii 动量编码器 我们的实验表明 停止梯度stop
  • 安全顶刊论文阅读总结1

    论文阅读总结 An Explainable AI Based Intrusion Detection System for DNS Over HTTPS DoH Attacks 论文介绍 本文2022年发表在IEEE Transaction

随机推荐

  • idea将本地新项目上传至svn

    目录 第一步 将本地代码交给svn管理 第二步 将代码提交至svn 第一步 将本地代码交给svn管理 1 file gt setting进入设置 2 点击Version Control gt 点击 加号 gt 选择本地项目文件 gt 选择S
  • 修改Mysql数据库的用户名和密码【详细】

    数据库的用户名默认是root 1进入到Mysql 首先要登录数据库 1win r输入cmd 管理员身份打开 或者 2搜索输入命令提示符 2 输入mysql uroot p点击回车 注意 mysql默认用户名是root 我以前修改过 所以我输
  • 看起来很长但还是有用的Spring学习笔记

    本文首发于泊浮目的专栏 https segmentfault com blog Spring致力于提供一种方法管理你的业务对象 在大量Java EE的应用中 随处可见Spring 今天我将简单的介绍一下Spring这个框架 本文适合读者 想
  • Verilog中generate语句的用法

    在Verilog 2001中新增了语句generate 通过generate循环 可以产生一个对象 比如一个元件或者是一个模块 的多次例化 为可变尺度的设计提供了方便 generate语句一般在循环和条件语句中使用 为此 Verilog 2
  • DLL的引入方式(DllImport的特殊引入方式)

    Dll引入方式有四种 1 就是普通的比如一个解决方案中有多个项目 将其他项目的引入到该项目中 2 就是软件自带的程序集的引入 3 就是使用dll的引入 普通的本身就是VS的dll文件 4 就是使用dll的引入 不是属于该语言的vs的Dll文
  • 减少GC开销 &&可能出现内存泄漏的情况&&两个对象相互引用会不会被GC

    如何降低java GC开销 减少GC次数 其他详见 如何减少垃圾回收的次数 jvm虚拟机 1 选择一个较好的GC器 Java9在2017年九月发布 G1 Garbage First 垃圾回收器 成为 HotSpot 虚拟机默认的垃圾回收器
  • 还没用熟 TypeScript 社区已经开始抛弃了

    前端Q 我是winty 专注分享前端知识和各类前端资源 乐于分享各种有趣的事 关注我 一起做个有趣的人 公众号 点击上方 前端Q 关注公众号 回复加群 加入前端Q技术交流群 根据 rich harris talks sveltekit an
  • C# 加密解码各种方法

    目录 一 加密解密介绍 二 MD5 三 SHA x系列 四 DES 3DES 五 RC2 六 AES 七 Base64 八 Rsa 九 参考文献 一 加密解密介绍 不可逆加密 MD5 SHA x系列对称式加密 Des 3DES RC2 AE
  • “加密系统”的巨坑

    在来公司之前 我压根就不知道这世界上原来还有 加密系统 这种软件产品存在 学名叫数据防泄漏 也怪我孤陋寡闻了 因为之前在厦门从来没听说过哪家公司有在用加密系统 当然 每家公司都有自己独特的管理需求 也许公司这边也确实重要信息比较多 核心机密
  • java自定义排序

    java中sort的自定义排序 一 Arrays sort nums 的一般用法 二 最大数 力扣179 三 合并区间 力扣59 四 总结 一 Arrays sort nums 的一般用法 整个数组按照升序排序 若需要降序排序 将数组转置即
  • ng-model数据绑定实例

    ng mode的作用是数据绑定 placeholder是默认显示值 在input里面输入任何字符都会对应显示到你下面ng model对应的name中 name
  • Python 3基础教程19-模块导入语法

    本文开始介绍模块导入的一些基本语法 我们现在还在Python自带的IDLE编辑器里写Python代码 如果你要需要一个功能 例如build in的模块 那么你就需要先导入这个模块 然后才能使用这个模块相关方法 不像在Pycharm编辑器了
  • 剑指 Offer 18. 删除链表的节点

    题目链接 18 删除链表的节点 Definition for singly linked list struct ListNode int val ListNode next ListNode int x val x next NULL c
  • 良品铺子年报:将冲击百亿营收门槛 斥资1.8亿现金分红

    雷递网 雷建平 3月23日报道 良品铺子 603719 SH 日前公布2021年度业绩 财报显示 良品铺子2021年公司营收93 24亿元 较2020年的78 94亿元增长18 11 近五年营收翻番 这意味着 良品铺子2022年将冲击百亿门
  • local_irq_save和 local_irq_disable

    如果你要禁止所有的中断该怎么办 在2 6内核中 可以通过下面两个函数中的其中任何一个关闭当前处理器上的所有中断处理 这两个函数定义在
  • constraints java_java-来自javax.validation.constraints的注释不起作用

    java 来自javax validation constraints的注释不起作用 使用id 如name NotNull等 中的注释需要什么配置 这是我的代码 import javax validation constraints Not
  • 深入理解Solidity——创建合约

    Solidity的合约类似于面向对象语言中的类 它们包含存放持久化数据的状态变量和可修改这些变量的函数 调用不同的合约实例上的函数将执行EVM函数调用 从而切换上下文 使得状态变量不可访问 创建合约 Creating Contracts 合
  • 支付宝商户转账给支付宝个人

    首先引入支付宝的jar
  • TorchServe部署pytorch模型

    文件准备 1 model file model py 参考 https github com pytorch serve blob master examples object detector maskrcnn model py 2 se
  • GODIVA论文阅读

    论文链接 GODIVA Generating Open DomaIn Videos from nAtural Descriptions 文章目录 摘要 引言 相关工作 Video to video generation Text to im