前言

随着互联网技术，特别是移动互联网技术的发展，网络视频（含短视频）已经成为当今互联网重要的内容表现形式，相比于纯文本和图文内容形式，视频内容更加丰富，对用户更有吸引力。随着近年来人们拍摄视频的需求更多、传输视频的速度更快、存储视频的空间更大，多种场景下积累了大量的视频数据，亟须有效地对视频进行管理、分析和处理的工具。视频理解旨在通过智能分析技术，自动地对视频中的内容进行识别和解析。

写作本书的主因是笔者初入视频理解这一计算机视觉分支时，相关的入门资料不是很多，于是规定自己每天必须看完一定数量的学术论文，但是相关学术论文浩如烟海，无从下手，难以厘清其中的发展脉络，不免有“只见树木，不见森林”的感觉。因此，笔者切身体会到，对于某个领域的初学者，一本入门书籍十分重要。

笔者曾于2018年在自媒体平台写作《视频理解近期研究进展》一文，对视频理解的相关算法进行了梳理，并受到读者好评。受篇幅所限，该文比较简略，只是列举了相关算法的一些要点，并且该文主要集中在视频理解中的动作识别领域。随后笔者决定动手写作本书，希望对初学者有所帮助，起到“随风潜入夜，润物细无声”的作用。

全书共分6章，第1章简要介绍视频行业的发展历程；第2章回顾经典图像分类模型和RNN，图像分类和RNN是动作识别的基础；第3章和第4章介绍动作识别的重要算法，动作识别旨在识别出视频中出现的动作；第5章介绍时序动作定位的重要算法，时序动作定位不仅要预测视频中包含了什么动作，还需要预测动作的起始和终止时刻；第6章介绍视频Embedding的重要算法，Embedding的主要作用是从视频中得到一个特征向量，这个特征向量是对整个视频内容的总结和概括；最后总结了一些常用的视频处理工具。

视频理解相关学术论文的作者来自世界各地，并且都有各自的写作风格和公式符号应用习惯。本书在写作时统一了全书的公式符号，并且重新设计和绘制了大量的插图，力求全书行文和插图连贯，风格统一，使初学者更容易掌握本书内容。全书中不可避免地会涉及一些公式，有些还比较复杂，读者结合插图更容易理解其中的含义。每枚硬币都有两面，对于对视频理解有一些了解、阅读过一些相关学术论文的读者，可能会觉得插图或公式符号和原论文中不太相同，但是其中的算法思想是一致的。本书在介绍有关算法时进行了归类，这种归类不见得是最严谨的，算法介绍的先后顺序也并不严格按照原论文发表的时间先后顺序，笔者出于使读者更容易理解和把握算法发展脉络的立场进行写作。

本书正文中提及见“链接1”“链接2”等时，可添加封底【读者服务】处客服好友，发送“41980”获取链接文件。

本书在内容上尽量涵盖视频理解的3大基础领域（动作识别、时序动作定位、视频Embedding）的重要算法，但受篇幅和时间所限，很多重要、前沿的内容未能覆盖，即使覆盖到的也是管中窥豹。在有本书的基础之后，可以降低读者阅读有关学术论文原文，以及进一步学习和钻研的难度。

笔者在写作时，深恐不慎以致误人子弟，为了写作本书，笔者将本书涉及的学术论文重新找来又仔细推敲一遍。写作过程并不轻松，极耗时间和精力，但是受益良多，为了能使读者受益，笔者需要反复思考书中内容如何取舍、从何角度介绍算法、各算法间演进关系等，对视频理解的认识又加深了一层。“一花独放不是春，百花齐放春满园”。借此机会，笔者希望能有更多的有志之士为初学者分享自己的知识和心得。

感谢林天威先生、王烨鑫先生和魏秀参教授为本书写推荐语，感谢电子工业出版社李利健编辑为本书提出的有价值的修改意见，感谢腾讯在线视频特别是AI技术中心的大力支持，感谢笔者的其他亲朋好友的支持和理解，写作本书几乎耗尽了笔者所有的节假日和休息时间。

视频理解技术的发展极为迅速，它目前已经成为一个十分广袤的计算机视觉分支。笔者自认才疏学浅，加上时间和精力有限，书中错漏之处在所难免，敬请读者批评、指正，本书勘误请发送邮件至：zhangh0214@gmail.com。

张皓

2021年8月于广东深圳

读者服务

微信扫码回复：41980

●　获取本书链接文件“参考资料”

●　加入本书读者交流群，与作者互动

●　获取【百场业界大咖直播合集】（持续更新），仅需1元

本周热推：

机器学习算法竞赛实战新机器智能联邦学习实战 MATLAB在电子信息工程中的应用 MXNet深度学习实战