深度学习视频理解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

随着互联网技术,特别是移动互联网技术的发展,网络视频(含短视频)已经成为当今互联网重要的内容表现形式,相比于纯文本和图文内容形式,视频内容更加丰富,对用户更有吸引力。随着近年来人们拍摄视频的需求更多、传输视频的速度更快、存储视频的空间更大,多种场景下积累了大量的视频数据,亟须有效地对视频进行管理、分析和处理的工具。视频理解旨在通过智能分析技术,自动地对视频中的内容进行识别和解析。

写作本书的主因是笔者初入视频理解这一计算机视觉分支时,相关的入门资料不是很多,于是规定自己每天必须看完一定数量的学术论文,但是相关学术论文浩如烟海,无从下手,难以厘清其中的发展脉络,不免有“只见树木,不见森林”的感觉。因此,笔者切身体会到,对于某个领域的初学者,一本入门书籍十分重要。

笔者曾于2018年在自媒体平台写作《视频理解近期研究进展》一文,对视频理解的相关算法进行了梳理,并受到读者好评。受篇幅所限,该文比较简略,只是列举了相关算法的一些要点,并且该文主要集中在视频理解中的动作识别领域。随后笔者决定动手写作本书,希望对初学者有所帮助,起到“随风潜入夜,润物细无声”的作用。

全书共分6章,第1章简要介绍视频行业的发展历程;第2章回顾经典图像分类模型和RNN,图像分类和RNN是动作识别的基础;第3章和第4章介绍动作识别的重要算法,动作识别旨在识别出视频中出现的动作;第5章介绍时序动作定位的重要算法,时序动作定位不仅要预测视频中包含了什么动作,还需要预测动作的起始和终止时刻;第6章介绍视频Embedding的重要算法,Embedding的主要作用是从视频中得到一个特征向量,这个特征向量是对整个视频内容的总结和概括;最后总结了一些常用的视频处理工具。

视频理解相关学术论文的作者来自世界各地,并且都有各自的写作风格和公式符号应用习惯。本书在写作时统一了全书的公式符号,并且重新设计和绘制了大量的插图,力求全书行文和插图连贯,风格统一,使初学者更容易掌握本书内容。全书中不可避免地会涉及一些公式,有些还比较复杂,读者结合插图更容易理解其中的含义。每枚硬币都有两面,对于对视频理解有一些了解、阅读过一些相关学术论文的读者,可能会觉得插图或公式符号和原论文中不太相同,但是其中的算法思想是一致的。本书在介绍有关算法时进行了归类,这种归类不见得是最严谨的,算法介绍的先后顺序也并不严格按照原论文发表的时间先后顺序,笔者出于使读者更容易理解和把握算法发展脉络的立场进行写作。

本书正文中提及见“链接1”“链接2”等时,可添加封底【读者服务】处客服好友,发送“41980”获取链接文件。

本书在内容上尽量涵盖视频理解的3大基础领域(动作识别、时序动作定位、视频Embedding)的重要算法,但受篇幅和时间所限,很多重要、前沿的内容未能覆盖,即使覆盖到的也是管中窥豹。在有本书的基础之后,可以降低读者阅读有关学术论文原文,以及进一步学习和钻研的难度。

笔者在写作时,深恐不慎以致误人子弟,为了写作本书,笔者将本书涉及的学术论文重新找来又仔细推敲一遍。写作过程并不轻松,极耗时间和精力,但是受益良多,为了能使读者受益,笔者需要反复思考书中内容如何取舍、从何角度介绍算法、各算法间演进关系等,对视频理解的认识又加深了一层。“一花独放不是春,百花齐放春满园”。借此机会,笔者希望能有更多的有志之士为初学者分享自己的知识和心得。

感谢林天威先生、王烨鑫先生和魏秀参教授为本书写推荐语,感谢电子工业出版社李利健编辑为本书提出的有价值的修改意见,感谢腾讯在线视频特别是AI技术中心的大力支持,感谢笔者的其他亲朋好友的支持和理解,写作本书几乎耗尽了笔者所有的节假日和休息时间。

视频理解技术的发展极为迅速,它目前已经成为一个十分广袤的计算机视觉分支。笔者自认才疏学浅,加上时间和精力有限,书中错漏之处在所难免,敬请读者批评、指正,本书勘误请发送邮件至:zhangh0214@gmail.com。

张皓

2021年8月于广东深圳

img

读者服务

微信扫码回复:41980

● 获取本书链接文件“参考资料”

● 加入本书读者交流群,与作者互动

● 获取【百场业界大咖直播合集】(持续更新),仅需1元