范数定义了向量到实数的某种映射,并且满足正定性、齐次性、三角不等式
∥
v
∥
≥
0
\| \bold v \| \geq 0
∥v∥≥0
∥
c
v
∥
=
∣
c
∣
∥
v
∥
\|c \bold v \| = |c| \| \bold v \|
∥cv∥=∣c∣∥v∥
∥
v
+
w
∥
≤
∥
v
∥
+
∥
w
∥
\left\| {\bold v + \bold w} \right\| \le \left\| \bold v \right\| + \left\| \bold w \right\|
∥v+w∥≤∥v∥+∥w∥
向量范数
Hölder范数/ p范数/ Lp范数: 为x向量各个元素绝对值p次方之和的1/p次方
∥
v
∥
p
=
(
∣
v
1
∣
p
+
⋯
+
∣
v
n
∣
p
)
1
/
p
{\left\|\bold v \right\|_p} = {({\left| {{v_1}} \right|^p} + \cdots + {\left| {{v_n}} \right|^p})^{1/p}}
∥v∥p=(∣v1∣p+⋯+∣vn∣p)1/p 常用的Lp范数(p一般取1到无穷大):
ℓ
1
\ell ^1
ℓ1范数 / 曼哈顿范数:
∥
v
∥
1
=
∣
v
1
∣
+
⋯
+
∣
v
n
∣
{\left\| \bold v \right\|_1} = \left| {{v_1}} \right| + \cdots + \left| {{v_n}} \right|
∥v∥1=∣v1∣+⋯+∣vn∣
ℓ
1
\ell ^1
ℓ1范数较小的向量,表现为稀疏的,即大部分元素为零
由图可得推论:对任意向量
v
\bold v
v,有
∥
v
∥
∞
≤
∥
v
∥
2
≤
∥
v
∥
1
≤
n
∥
v
∥
2
{\|\bold v \|_\infty}\le {\|\bold v \|_2}\le {\|\bold v \|_1}\le\sqrt n {\|\bold v \|_2}
∥v∥∞≤∥v∥2≤∥v∥1≤n∥v∥2
证明: ①对于向量
[
1
2
,
1
2
]
[\frac{1}{\sqrt 2},\frac{1}{\sqrt 2}]
[21,21],绘制各范数的等高线: 显然
∥
v
∥
∞
≤
∥
v
∥
2
≤
∥
v
∥
1
{\|\bold v \|_\infty}\le {\|\bold v \|_2}\le {\|\bold v \|_1}
∥v∥∞≤∥v∥2≤∥v∥1 ②已经知道
∥
v
∥
2
≤
∥
v
∥
1
{\|\bold v \|_2}\le {\|\bold v \|_1}
∥v∥2≤∥v∥1, 固定使
∥
v
∥
2
=
1
{\|\bold v \|_2}=1
∥v∥2=1,对应下图中红色圆上的所有点; 那么圆上所有点中,
∥
v
∥
1
{\|\bold v \|_1}
∥v∥1最小为1,最大为
2
\sqrt 2
2,显然
∥
v
∥
2
≤
∥
v
∥
1
≤
n
∥
v
∥
2
{\|\bold v \|_2}\le {\|\bold v \|_1}\le\sqrt n {\|\bold v \|_2}
∥v∥2≤∥v∥1≤n∥v∥2
另一类范数是 椭圆范数/ S范数:
∥
v
∥
S
=
v
T
S
v
{\left\|\bold v \right\|_S} = \sqrt {{\bold v^T}\boldsymbol S\bold v}
∥v∥S=vTSv其中,
S
\boldsymbol S
S是对称正定矩阵/Hermite正定矩阵,而外面的根号是为了保证范数的性质
∥
c
v
∥
S
=
c
∥
v
∥
S
{\left\|c\bold v \right\|_S}=c{\left\|\bold v \right\|_S}
∥cv∥S=c∥v∥S 之所以称为“椭圆范数”,是因为该范数与二次型有关,而且正定二次型的横截面就是椭圆
例如,当
S
=
[
2
0
0
3
]
\boldsymbol S=\begin{bmatrix} 2 &0 \\ 0 &3\end{bmatrix}
S=[2003],
∥
v
∥
S
2
=
2
v
1
2
+
3
v
2
2
=
1
{\left\|\bold v \right\|_S^2} = 2v_1^2 + 3v_2^2 = 1
∥v∥S2=2v12+3v22=1的图像为一个椭圆,这相当于一种用2和3加权后的范数 当
S
=
I
\boldsymbol S=\boldsymbol I
S=I,椭圆范数退化为
ℓ
2
\ell ^2
ℓ2范数
范数最小化的优化问题
一个经典的优化问题模型是:
min
∥
x
∥
,
s
.
t
.
A
x
=
b
\min \left\| \bold x \right\|, s.t. \boldsymbol A\bold x=\bold b
min∥x∥,s.t.Ax=b
在L1和L2范数下,最优解的图解: 在几何上,
A
x
=
b
\boldsymbol A\bold x=\bold b
Ax=b的解空间构成一个流形(上面的直线); 菱形/圆形对应了L1和L2范数的“等高线”,想象菱形/圆形从原点不断向外扩张,它们第一次与直线的交点,就是问题的解
Hermitian 对称性:
⟨
x
,
y
⟩
=
⟨
y
,
x
⟩
‾
\left\langle\mathbf{x},\mathbf{y}\right\rangle=\overline{\left\langle\mathbf{y},\mathbf{x}\right\rangle}
⟨x,y⟩=⟨y,x⟩(上横线为共轭)
共轭双线性:
⟨
x
,
y
+
z
⟩
=
⟨
x
,
y
⟩
+
⟨
x
,
z
⟩
\left\langle\mathbf{x},\mathbf{y}+\mathbf{z}\right\rangle=\left\langle\mathbf{x},\mathbf{y}\right\rangle+\left\langle\mathbf{x},\mathbf{z}\right\rangle
⟨x,y+z⟩=⟨x,y⟩+⟨x,z⟩、
⟨
x
,
c
y
⟩
=
c
⟨
x
,
y
⟩
\left\langle\mathbf{x},c\mathbf{y}\right\rangle=c\left\langle\mathbf{x},\mathbf{y}\right\rangle
⟨x,cy⟩=c⟨x,y⟩
正定性:
⟨
x
,
x
⟩
≥
0
\left\langle\mathbf{x},\mathbf{x}\right\rangle\ge 0
⟨x,x⟩≥0,
⟨
x
,
x
⟩
=
0
\left\langle\mathbf{x},\mathbf{x}\right\rangle=0
⟨x,x⟩=0当且仅当
x
=
0
\mathbf{x}=\mathbf{0}
x=0
满足上述条件的向量空间称为内积空间 (inner product space) 详见:内积的定义
在内积空间中,广义矢量范数也可定义于内积运算上:
∥
x
∥
=
⟨
x
,
x
⟩
\displaystyle \Vert\mathbf{x}\Vert=\sqrt{\left\langle\mathbf{x},\mathbf{x}\right\rangle}
∥x∥=⟨x,x⟩ 这就是说,内积空间是一个赋范向量空间
重要不等式
Hölder 不等式:
∣
x
H
y
∣
≤
∥
x
∥
p
∥
y
∥
q
\displaystyle \vert\mathbf{x}^H\mathbf{y}\vert\le\Vert\mathbf{x}\Vert_p\Vert\mathbf{y}\Vert_q
∣xHy∣≤∥x∥p∥y∥q(其中
p
,
q
>
1
p,q>1
p,q>1且
1
/
p
+
1
/
q
=
1
1/p+1/q=1
1/p+1/q=1)
Cauchy-Schwarz 不等式:
∣
⟨
x
,
y
⟩
∣
=
∣
x
H
y
∣
≤
∥
x
∥
∥
y
∥
|{\left\langle\mathbf{x},\mathbf{y}\right\rangle}|=\displaystyle \vert\mathbf{x}^H\mathbf{y}\vert\le\Vert\mathbf{x}\Vert \Vert\mathbf{y}\Vert
∣⟨x,y⟩∣=∣xHy∣≤∥x∥∥y∥(内积绝对值<=长度的乘积) 由Cauchy-Schwarz 不等式可以导出三角不等式:
∥
x
+
y
∥
≤
∥
x
∥
+
∥
y
∥
\displaystyle \Vert\mathbf{x}+\mathbf{y}\Vert\le\Vert\mathbf{x}\Vert+\Vert\mathbf{y}\Vert
∥x+y∥≤∥x∥+∥y∥
Hölder 不等式还可以用于证明Minkowski 不等式(“p范数下的三角不等式”)
Minkowski 不等式:
∥
x
+
y
∥
p
≤
∥
x
∥
p
+
∥
y
∥
p
\Vert \mathbf{x}+\mathbf{y}\Vert_p\le\Vert\mathbf{x}\Vert_p+\Vert\mathbf{y}\Vert_p
∥x+y∥p≤∥x∥p+∥y∥p
reference: MIT 18.065—机器学习中的矩阵方法08 向量和矩阵的范数 赋范向量空间 向量范数 矩阵范数