StyleGAN {Karras2018} 的显着特征是其非常规的生成器架构。 mapping network
f
f
f 不是仅将输入潜在代码
z
∈
Z
\mathrm{z} \in \mathcal{Z}
z∈Z 馈送到网络的开头,而是首先将其转换为中间潜在代码
w
∈
W
\mathrm{w} \in \mathcal{W}
w∈W。 然后仿射变换产生 styles,通过自适应实例归一化 (AdaIN) {Huang2017,Dumoulin2016,Ghiasi2017,Dumoulin2018} 控制 synthesis network
g
g
g 的各层。 此外,通过向合成网络提供额外的随机噪声图来促进随机变化。 已经证明 {Karras2018,Shen2019}这种设计允许中间潜在空间
W
\mathcal{W}
W 比输入潜在空间
Z
\mathcal{Z}
Z 的纠缠少得多。 在本文中,我们将所有分析仅集中在
W
\mathcal{W}
W 上,因为从合成网络的角度来看,它是相关的潜在空间。
使用生成方法生成的图像质量的定量分析仍然是一个具有挑战性的话题。
F
r
e
ˊ
c
h
e
t
Fr\'echet
Freˊchet 初始距离 (FID) {Heusel2017} 测量 InceptionV3 分类器 {simonyan2014} 的高维特征空间中两个分布的密度差异。 精确率和召回率 (
P
&
R
P\&R
P&R) {Sajjadi2018,Tuomas2019} 通过分别显式量化与训练数据相似的生成图像的百分比和可以生成的训练数据的百分比来提供额外的可见性。 我们使用这些指标来量化改进。
FID 和
P
&
R
P\&R
P&R 都基于最近被证明专注于纹理而不是形状的分类器网络{Geirhos2018},因此,这些指标无法准确捕获图像质量的所有方面。 我们观察到,感知路径长度perceptual path length(PPL)度量{Karras2018}最初是作为估计潜在空间插值质量的方法引入的,它与形状的一致性和稳定性相关。 在此基础上,我们对合成网络进行正则化以有利于平滑映射(Section 3)并实现质量的明显提高。 为了抵消其计算成本,我们还建议减少执行所有正则化的频率,观察到这可以在不影响有效性的情况下完成。
最后,我们发现使用新的路径长度正则化 StyleGAN2 生成器将图像投影到潜在空间
W
\mathcal{W}
W 的效果明显优于原始 StyleGAN。 这使得更容易将生成的图像归因于其源(Section 5)。
我们重新设计了 StyleGAN 合成网络的架构。 (a) 原始 StyleGAN,其中
A
\boxed{A}
A 表示从
W
\mathcal{W}
W 学习的仿射变换,产生样式,而
B
\boxed{B}
B 是噪声广播操作。 (b) 具有完整细节的同一张图。在这里,我们将 AdaIN 分解为显式归一化,然后进行调制,两者都对每个特征图的平均值和标准差进行操作。我们还注释了学习权重 (
w
w
w)、偏差 (
b
b
b)和常量输入 (
c
c
c),并重新绘制灰色框,以便每个框激活一种样式。激活函数(leaky ReLU)始终在添加偏差后立即应用。 ( c) 我们对原始架构进行了一些修改,这些修改在正文中是合理的。我们在开始时删除了一些冗余操作,将
b
b
b 和
B
\boxed{B}
B 的添加移动到样式的活动区域之外,并仅调整每个特征图的标准偏差。 (d) 修改后的架构使我们能够用“解调”操作替换实例归一化,我们将其应用于与每个卷积层相关的权重。
回想一下,图2c中的样式块由调制、卷积和归一化组成。 让我们从考虑调制后的卷积的影响开始。 调制根据传入的样式对卷积的每个输入特征图进行缩放,也可以通过缩放卷积权值来实现:
w
i
j
k
′
=
s
i
⋅
w
i
j
k
,
\begin{equation} w'_{ijk} = s_i \cdot w_{ijk}, \end{equation}
wijk′=si⋅wijk,其中
w
w
w和
w
′
w'
w′分别是原始权重和调制权重,
s
i
s_i
si是对应于第
i
i
i个输入特征图的尺度,
j
j
j和
k
k
k分别枚举卷积的输出特征图和空间足迹。
现在,实例归一化的目的就是从本质上去除卷积输出特征映射的统计数据中s的影响。 我们认为,这一目标可以更直接地实现。 假设输入激活是具有单位标准差的独立同分布i.i.d.随机变量。 调制卷积后,输出激活量的标准差为
σ
j
=
∑
i
,
k
w
i
j
k
′
2
,
\begin{equation} \sigma_j = \sqrt{{\underset{i,k}{{}\displaystyle\sum{}}} {w'_{ijk}}^2}, \end{equation}
σj=i,k∑wijk′2,即,输出按相应权重的
L
2
L_2
L2 范数缩放。随后的归一化旨在将输出恢复到单位标准差。 根据方程2,如果我们将每个输出特征图
j
j
j 缩放(“解调”)
1
/
σ
j
1/\sigma_j
1/σj,就可以实现这一点。 或者,我们可以再次将其烘焙bake到卷积权重中:
w
i
j
k
′
′
=
w
i
j
k
′
/
∑
i
,
k
w
i
j
k
′
2
+
ϵ
,
\begin{equation} w''_{ijk} = w'_{ijk} \bigg/ \sqrt{{\underset{i,k}{{}\displaystyle\sum{}}} {w'_{ijk}}^2 + \epsilon}, \end{equation}
wijk′′=wijk′/i,k∑wijk′2+ϵ,其中
ϵ
\epsilon
ϵ 是一个小常数,以避免数值问题。
我们观察到感知图像质量和感知路径长度(PPL)[21]之间的相关性,感知路径长度是一个最初引入的度量,用于通过测量在潜在空间中的小扰动下生成的图像之间的平均LPIPS距离[44]来量化从潜在空间到输出图像的映射的平滑性。 再次参考增补中的图3和图4,一个更小的PPL(更平滑的生成器映射)似乎与总体图像质量的较高相关,而其他度量对此变化视而不见。 图4通过LSUN CAT上的每幅图像PPL得分,通过对
w
∼
f
(
z
)
w \sim f(z)
w∼f(z)周围的潜在空间进行采样计算,更仔细地检查了这种相关性。 低分数确实是高质量图像的指示,反之亦然。 图5a显示了相应的直方图,并揭示了分布的长尾。 模型的总体PPL只是每个图像PPL得分的期望值。 我们总是为整个图像计算PPL,而不是Karras等人。 [21]他们使用较小的中央裁剪。
典型地,主损失函数(例如,Logistic损失[13])和正则化项(例如
R
1
R_1
R1[25])被写成一个单一表达式,从而被同时优化。 我们观察到正则化项的计算频率比主损失函数低,从而大大减少了它们的计算成本和总的内存使用。 表1的C行显示,当每16个小批处理只执行一次R1正则化时,不会造成任何伤害,我们对新的正则化器也采用了相同的策略。 附录B给出了实施细节。
3.2. Path length regularization
我们鼓励
W
\mathcal{W}
W 中的固定大小步骤导致图像中非零、固定幅度的变化。 我们可以通过步入图像空间中的随机方向并观察相应的
w
\mathrm{w}
w 梯度来凭经验测量与理想值的偏差。 无论
w
\mathrm{w}
w 或图像空间方向如何,这些梯度都应该具有接近相等的长度,这表明从潜在空间到图像空间的映射是条件良好的{Odena2018}。
在单个
w
∈
W
\mathrm{w} \in \mathcal{W}
w∈W 处,生成器映射
g
(
w
)
g(\mathrm{w})
g(w) 的局部度量缩放属性:
W
↦
Y
\mathcal{W} \mapsto \mathcal{Y}
W↦Y由雅可比矩阵
J
w
=
∂
g
(
w
)
/
∂
w
\mathbf{J}_\mathrm{w} = {\partial g(\mathrm{w})}/{\partial \mathrm{w}}
Jw=∂g(w)/∂w 捕获。 出于无论方向如何都保留向量的预期长度的愿望,我们将正则化器表示为
E
w
,
y
∼
N
(
0
,
I
)
(
∥
J
w
T
y
∥
2
−
a
)
2
,
\begin{equation} \mathbb{E}_{\mathrm{w}, \mathrm{y} \sim \mathcal{N}(0, \mathbf{I})} \left(\left\lVert \mathbf{J}_\mathrm{w}^T \mathrm{y}\right\rVert_2 - a\right)^2, \end{equation}
Ew,y∼N(0,I)(JwTy2−a)2,其中
y
\mathrm{y}
y是具有正态分布像素强度的随机图像,
w
∼
f
(
z
)
\mathrm{w}\sim f(\mathbf{z})
w∼f(z),其中
z
\mathbf{z}
z是正态分布的。我们在 Appendix C 中表明,在高维度中,当
J
w
\mathbf{J}_\mathrm{w}
Jw 在任何
w
\mathrm{w}
w 处正交(在全局范围内)时,该先验最小化。 正交矩阵保留长度并且不会沿任何维度引入挤压。
为了避免雅可比矩阵的显式计算,我们使用恒等式
J
w
T
y
=
∇
w
(
g
(
w
)
⋅
y
)
\mathrm{J}^{T}_\mathrm{w} \mathrm{y} = \nabla_\mathrm{w} (g(\mathrm{w} )\cdot \mathrm{y})
JwTy=∇w(g(w)⋅y),可以使用标准反向传播 {Dauphin2015} 进行有效计算。 常数
a
a
a 在优化期间动态设置为长度
∥
J
w
T
y
∥
2
\lVert\mathrm{J}^{T}_\mathrm{w} \mathrm{y}\rVert_2
∥JwTy∥2 的长期指数移动平均值,允许优化本身找到合适的全局尺度。
我们的正则化器与 Odena 等人{Odena2018} 提出的雅可比clamping正则化器密切相关。 实际差异包括我们以分析方式计算乘积
J
w
T
y
\mathrm{J}^{T}_\mathrm{w} \mathrm{y}
JwTy,而他们使用有限差分来估计
J
w
δ
\mathbf{J}_\mathrm{w} \boldsymbol{\delta}
Jwδ 与
Z
∋
δ
∼
N
(
0
,
I
)
\mathcal{Z} \ni \boldsymbol{\delta} \sim \mathcal{N}(0, \mathbf{I})
Z∋δ∼N(0,I)。 应该注意的是,生成器{Zhang2018sagan}的谱归一化{Miyato2018B}仅约束最大奇异值,对其他值没有限制,因此不一定会导致更好的调节。 我们发现,除了我们的贡献之外,启用光谱归一化-----或者代替它们--------总是会损害 FID,如 Appendix E 中详述。
检测被操纵或生成的图像是一项非常重要的任务。 目前,基于分类器的方法可以非常可靠地检测生成的图像,无论其确切来源如何{Li2018,Yu2018,Wang2019,Zhang2019ganartifacts,Wang2019b}。 然而,鉴于生成方法的快速进步,这种情况可能不会持续下去。 除了对假图像的一般检测之外,我们还可以考虑问题的更有限的形式:能够将假图像归因于其特定来源{Albright2019}。 对于 StyleGAN,这相当于检查是否存在一个
w
∈
W
\mathrm{w} \in \mathcal{W}
w∈W来重新合成所讨论的图像。
我们通过计算原始图像和重新合成图像之间的 LPIPS{Zhang2018metric} 距离来衡量投影的成功程度。 公式为
D
L
P
I
P
S
[
x
,
g
(
g
~
−
1
(
x
)
)
]
D_\mathrm{LPIPS}[\boldsymbol{x}, g(\tilde{g}^{-1}(\boldsymbol{x}))]
DLPIPS[x,g(g~−1(x))],其中
x
\boldsymbol{x}
x 是正在分析的图像
g
~
−
1
\tilde{g}^{-1}
g~−1表示近似投影操作。 图 10 显示了使用原始 StyleGAN 和 StyleGAN2 的 LSUN Car 和 FFHQ 数据集的这些距离的直方图,以及图 9 显示了示例投影。 使用 StyleGAN2 生成的图像可以很好地投影到
W
\mathcal{W}
W 中,以至于它们几乎可以明确地归因于生成网络。 然而,对于原始的 StyleGAN,即使技术上应该可以找到匹配的潜在代码,但从
W
\mathcal{W}
W 到图像的映射似乎过于复杂,以至于在实践中无法可靠地成功。 我们发现令人鼓舞的是,尽管图像质量已显着提高,但 StyleGAN2 使来源归因变得更加容易。