1.2 本书内容_深度学习视频理解-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2　本书内容

从1.1节可以看出，视频理解涉及生活的多个方面，图1-2列举了网络视频行业中涉及的一些视频理解任务。目前视频理解已经发展成一个十分广阔的学术研究和产业应用方向。受篇幅所限，本书将介绍视频理解中的3大基础领域：动作识别（Action Recognition）、时序动作定位（Temporal Action Localization）和视频Embedding。

图1-2　视频理解涉及的部分任务

图像分类（Image Classification）是多种图像识别任务的基础，也是动作识别的基础，因此第2章首先对经典图像分类模型和RNN（Recurrent Neural Networks，循环神经网络，注意不是Recursive Neural Networks，递归神经网络）进行回顾。动作识别是视频理解的基础，也是学术界研究最多的视频理解领域，因此第3章和第4章会介绍动作识别。随后第5章和第6章分别介绍时序动作定位和视频Embedding。最后，附录A介绍了常用的视频处理工具。

本书假定读者已经对深度学习的基础组件有所了解，例如，读者应该了解什么是卷积（Convolution）层、什么是汇合[1]（Pooling）层、什么是全连接（Fully-Connected，FC）层、什么是BN（Batch-Normalization，批量规范化）层、什么是随机失活（Dropout）、非线性激活函数如ReLU（Rectified Linear Unit，线性整流单元）的作用等。读者如果想了解这方面的详细内容，可参考（Goodfellow et al.，2016；魏，2018；吴，2020）等。