只限于自己看!
预先说明
首先,这里面什么看成变量,什么看成常量。
变量:网络的权值W(偏置b默认在W内。)以及输入X。
常量:就是target
你可能会说呃呃呃,不是输入都是有值吗,不都是数吗,怎么会是变量啊。。一般来说网络的反向传播就是两种类型。一种是更新网络权值W,这是属于常规的,一种是更新输入X。 不管哪种情况,我们都要把W和X看成变量,才能有反向传播。
推导过程中,W和X都是变量,输出是W和X的函数。
字母说明
W(l)ij
W
i
j
(
l
)
:第
l
l
层到第l+1层的权值,并且是
l
l
层的第j个单元到
l+1
l
+
1
层的第
i
i
个单元的权值。
Z(l)i:第
l
l
层的第i个结点的输入和。
显然
Z(l)i=∑s(l−1)j=0Wl−1ijxj
Z
i
(
l
)
=
∑
j
=
0
s
(
l
−
1
)
W
i
j
l
−
1
x
j
, 其中
sl−1
s
l
−
1
代表
l−1
l
−
1
层的结点个数(不计算偏置单元)。可以这样说,第0个单元是偏置,1~
s(n−1)
s
(
n
−
1
)
是权重项。
a(l)i
a
i
(
l
)
:表示第
l
l
层的第i个结点的激活值,就是下面说的out的输出,或是说
a=f(net)
a
=
f
(
n
e
t
)
,写成
a=f(z)
a
=
f
(
z
)
也是一样的。
δ(l)i
δ
i
(
l
)
: 叫做“残差”,这里表示第
l
l
层的第i个节点的残差。这个非常重要,残差的定义就是——总的代价函数对于某个节点的“net”的偏导。注意的是这里的“net”指的是W*x+b这样的函数结构。可以这样看网络:
现在只需要看每个结点是如何处理数据的。不要看箭头,可以看到,h1和h2再加上“1”共三个结点输入,构成输入
x⃗
x
→
, 而相应的权值
W⃗
W
→
是
w5
w
5
,
w6
w
6
,
b2
b
2
, 也就是说
W⃗ ∗x⃗
W
→
∗
x
→
就是这里的“net”,然后“out”是指激活后的值,就是
f(net)
f
(
n
e
t
)
. 残差就是
∂E∂net
∂
E
∂
n
e
t
,*不是
∂E∂out
∂
E
∂
o
u
t
哦!
BP算法细节
参数说明:假设有n层。J表示代价函数,和上面的E是同样的意思,只不过用不同的字母写而已。
1: 首先当然是正向计算咯,分别求出
L2,L3,...
L
2
,
L
3
,
.
.
.
直至最后一层
Ln
L
n
的激活值。我们这里把输入当做第一层。下面是真正的反向传播。
2: 对于第n层(最后一层是特殊的,必须单独拿出来)每个输出单元
i
i
,下面的l的值为
n
n
, 计算每个结点的残差:
δ(l)i=∂J(W,b;x,y)∂z(l)i=∂∂z(l)i12∥y−hW,b(x)∥2=−(yi−a(l)i)⋅f′(z(l)i)(1)
注意:这里最后乘上了对“net”的导,如果是用sigmoid的函数的话,根据
f′(z(l)i)=a(l)i(1−a(l)i)
f
′
(
z
i
(
l
)
)
=
a
i
(
l
)
(
1
−
a
i
(
l
)
)
, 最后一层的第
i
i
个结点的残差δ(l)i=−(yi−a(l)i)∙a(l)i(1−a(l)i)
3: 从倒数第二层开始,也就是说
l=n−1,n−2,n−3,...,2
l
=
n
−
1
,
n
−
2
,
n
−
3
,
.
.
.
,
2
的各层,第
l
l
层的第i个结点的残差计算:
δ(l)i=(∑j=1sl+1W(l)jiδ(l+1)j)f′(z(l)i)
δ
i
(
l
)
=
(
∑
j
=
1
s
l
+
1
W
j
i
(
l
)
δ
j
(
l
+
1
)
)
f
′
(
z
i
(
l
)
)
分析:要想知道第
l
l
层的第i个结点的残差,必须知道该节点所连接的下一层的各个结点的权值,以及这些结点的残差,幸亏第
l+1
l
+
1
层已经计算出来了残差,你只要把后面一层的每个结点
j
j
的残差乘以该结点与这一层的结点i相连的权值,然后加和,最后别忘了乘以这一层的激活方式的导数。 不吹不黑,如果你不太懂得话,这段话可以够你看10遍,你就懂了。
4: 你可能会说要残差干嘛?当然是计算
∂J∂w
∂
J
∂
w
和
∂J∂b
∂
J
∂
b
用的。
只要:
∂∂W(l)ijJ(W,b;x,y)=a(l)jδ(l+1)i∂∂b(l)iJ(W,b;x,y)=δ(l+1)i(2)(3)
(2)
∂
∂
W
i
j
(
l
)
J
(
W
,
b
;
x
,
y
)
=
a
j
(
l
)
δ
i
(
l
+
1
)
(3)
∂
∂
b
i
(
l
)
J
(
W
,
b
;
x
,
y
)
=
δ
i
(
l
+
1
)
结论:求J对“结点j到i的线路”的导数,求出后者i的残差,然后乘以这条线路的流量即可。
分析:其实是这样的,
Wlij
W
i
j
l
是第
l
l
层到l+1层的权值,并且是从结点
j
j
到结点i的权值。根据链式法则:
∂J(W,b;x,y)∂w(l)ij=∂J(W,b;x,y)∂outi∗∂outi∂neti∗∂neti∂wij
∂
J
(
W
,
b
;
x
,
y
)
∂
w
i
j
(
l
)
=
∂
J
(
W
,
b
;
x
,
y
)
∂
o
u
t
i
∗
∂
o
u
t
i
∂
n
e
t
i
∗
∂
n
e
t
i
∂
w
i
j
请仔细看上面的公式,好好理解。
残差的定义就是
∂J(W,b;x,y)∂neti
∂
J
(
W
,
b
;
x
,
y
)
∂
n
e
t
i
,根据链式法则:
δ(l+1)i=∂J(W,b;x,y)∂neti=∂J(W,b;x,y)∂outi∗∂outi∂neti
δ
i
(
l
+
1
)
=
∂
J
(
W
,
b
;
x
,
y
)
∂
n
e
t
i
=
∂
J
(
W
,
b
;
x
,
y
)
∂
o
u
t
i
∗
∂
o
u
t
i
∂
n
e
t
i
这下明白了吧,就是说第
l+1
l
+
1
层,
∂J∂w(l)ij=δ(l+1)i∗∂neti∂wij=δ(l+1)ia(l)j
∂
J
∂
w
i
j
(
l
)
=
δ
i
(
l
+
1
)
∗
∂
n
e
t
i
∂
w
i
j
=
δ
i
(
l
+
1
)
a
j
(
l
)
注意,第
l+1
l
+
1
层的
∂neti∂wij
∂
n
e
t
i
∂
w
i
j
就是该层的输入,也就是第
l
l
层的输出
a(l)j.
最后一个问题,为啥
δ(l)i=(∑j=1sl+1W(l)jiδ(l+1)j)f′(z(l)i)
δ
i
(
l
)
=
(
∑
j
=
1
s
l
+
1
W
j
i
(
l
)
δ
j
(
l
+
1
)
)
f
′
(
z
i
(
l
)
)
呢?
δ(l−1)i=∂∂z(l−1)iJ(W,b;x,y)=∂∂z(l−1)i12∥y−hW,b(x)∥2=∂∂z(l−1)i12∑j=1Sl(yj−a(l)j)2=12∑j=1Sl∂∂z(l−1)i(yj−a(l)j)2=12∑j=1Sl∂∂z(l−1)i(yj−f(z(l)j))2=∑j=1Sl−(yj−f(z(l)j))⋅∂∂z(l−1)if(z(l)j)=∑j=1Sl−(yj−f(z(nl)j))⋅f′(z(l)j)⋅∂z(l)j∂z(l−1)i=∑j=1Slδ(l)j⋅∂z(l)j∂z(l−1)i=∑j=1Sl⎛⎝δ(l)j⋅∂∂z(l−1)i∑k=1S(l−1)f(z(l−1)k)⋅W(l−1)jk⎞⎠=∑j=1Slδ(l)j⋅W(l−1)ji⋅f′(z(l−1)i)=(∑j=1SlW(l−1)jiδ(l)j)f′(z(l−1)i)
δ
i
(
l
−
1
)
=
∂
∂
z
i
(
l
−
1
)
J
(
W
,
b
;
x
,
y
)
=
∂
∂
z
i
(
l
−
1
)
1
2
‖
y
−
h
W
,
b
(
x
)
‖
2
=
∂
∂
z
i
(
l
−
1
)
1
2
∑
j
=
1
S
l
(
y
j
−
a
j
(
l
)
)
2
=
1
2
∑
j
=
1
S
l
∂
∂
z
i
(
l
−
1
)
(
y
j
−
a
j
(
l
)
)
2
=
1
2
∑
j
=
1
S
l
∂
∂
z
i
(
l
−
1
)
(
y
j
−
f
(
z
j
(
l
)
)
)
2
=
∑
j
=
1
S
l
−
(
y
j
−
f
(
z
j
(
l
)
)
)
⋅
∂
∂
z
i
(
l
−
1
)
f
(
z
j
(
l
)
)
=
∑
j
=
1
S
l
−
(
y
j
−
f
(
z
j
(
n
l
)
)
)
⋅
f
′
(
z
j
(
l
)
)
⋅
∂
z
j
(
l
)
∂
z
i
(
l
−
1
)
=
∑
j
=
1
S
l
δ
j
(
l
)
⋅
∂
z
j
(
l
)
∂
z
i
(
l
−
1
)
=
∑
j
=
1
S
l
(
δ
j
(
l
)
⋅
∂
∂
z
i
(
l
−
1
)
∑
k
=
1
S
(
l
−
1
)
f
(
z
k
(
l
−
1
)
)
⋅
W
j
k
(
l
−
1
)
)
=
∑
j
=
1
S
l
δ
j
(
l
)
⋅
W
j
i
(
l
−
1
)
⋅
f
′
(
z
i
(
l
−
1
)
)
=
(
∑
j
=
1
S
l
W
j
i
(
l
−
1
)
δ
j
(
l
)
)
f
′
(
z
i
(
l
−
1
)
)
慢慢看,看懂问题不大。
编码
- 进行前馈传导计算,利用前向传导公式,得到
L2,L3,…
L
2
,
L
3
,
…
直到输出层
Ll
L
l
的激活值。
- 对输出层(第
l
l
层),计算:
-
δ(nl)=−(y−a(nl))∙f′(z(nl))
- 对于
l=nl−1,nl−2,nl−3,…,2
l
=
n
l
−
1
,
n
l
−
2
,
n
l
−
3
,
…
,
2
的各层,计算:
-
δ(l)=((W(l))Tδ(l+1))∙f′(z(l))
δ
(
l
)
=
(
(
W
(
l
)
)
T
δ
(
l
+
1
)
)
∙
f
′
(
z
(
l
)
)
- 计算最终需要的偏导数值:
-
∇W(l)J(W,b;x,y)=δ(l+1)(a(l))T,∇b(l)J(W,b;x,y)=δ(l+1).
∇
W
(
l
)
J
(
W
,
b
;
x
,
y
)
=
δ
(
l
+
1
)
(
a
(
l
)
)
T
,
∇
b
(
l
)
J
(
W
,
b
;
x
,
y
)
=
δ
(
l
+
1
)
.
最后说明一点,BP传播,计算各层的各点的残差是关键,残差是总的代价函数对于该点的net的偏导,从倒数第二层开始,求残差就要用到其后面的一层的各个残差,只要用后面一层的各个结点残差乘以其与这一层这个的结点所连接的权值,再求和,最后乘以这一层这个结点的out对net的偏导就可以了。如此一来,残差乘以这个结点的输入,就可以得到整个代价函数对于这个结点的w偏导了。