上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
3.3 利用RNN融合各帧特征
3.2 节介绍的NetVLAD和NeXtVLAD的分类准确率比平均汇合高不少,但是不管是平均汇合,还是NetVLAD 或 NeXtVLAD,这些方法都没有显式地考虑视频帧之间的时序关系,而视频中的动作存在先后的时序关系。RNN(Recurrent Neural Networks,循环神经网络)有很强的时序建模能力,可以显式地考虑帧之间的时序关系,本节将介绍利用RNN 进行帧特征融合的方法。
3.2 节介绍的NetVLAD和NeXtVLAD的分类准确率比平均汇合高不少,但是不管是平均汇合,还是NetVLAD 或 NeXtVLAD,这些方法都没有显式地考虑视频帧之间的时序关系,而视频中的动作存在先后的时序关系。RNN(Recurrent Neural Networks,循环神经网络)有很强的时序建模能力,可以显式地考虑帧之间的时序关系,本节将介绍利用RNN 进行帧特征融合的方法。