深度学习视频理解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2.4 GRU

GRU是另一种主流的RNN衍生物。RNN和LSTM 都是在设计网络结构用于缓解梯度消失问题,只不过网络结构有所不同。GRU在数学上的形式化表示如下:

img

(2.31)

为了理解 GRU的设计思想,我们再一次运用“三次简化一张图”的方法来进行分析:

(1)第1次简化:忽略门控单元img的来源。

(2)考虑一维门控单元img。经过这两次简化,GRU的数学形式是以下两行

img

(2.32)

(3)第3次简化:各门控单元二值输出。这里和LSTM 略有不同的地方在于,当img时,img;当img时,img。因此,img扮演的角色是一个个单刀双掷开关。

(4)一张图。将3次简化的结果用图表述出来,左边是输入,右边是输出,如图2-29所示。

img

图2-29 GRU 运行原理图

与 LSTM 相比,GRU 将输入门img和遗忘门img融合成单一的更新门img,并且融合了细胞状态img和隐层单元img。当img(重置门开关闭合)、img(更新门开关连通上面)时,GRU 退化为标准的RNN。

根据图2-29,我们可以对 GRU各单元的作用进行分析。

● 重置门imgimg用于控制前一时刻隐层单元img对当前词img的影响。如果imgimg不重要,即从当前词img开始表述了新的意思,与上文无关。那么开关img可以打开,使得imgimg不产生影响。

● 更新门imgimg用于决定是否忽略当前词img。类似于LSTM 中的输入门imgimg可以判断当前词img对整体意思的表达是否重要。当img开关接通下面的支路时,我们将忽略当前词img,同时构成了从imgimg的短路连接,这使梯度得已有效地反向传播。和LSTM 相同,这种短路机制有效地缓解了梯度消失现象,这个机制与高速公路网络(Highway Networks)(Srivastava et al.,2015a)十分相似。