1.2.4 视频Embedding
Embedding 直译为嵌入,不过被翻译为向量化更加贴切,为了贴近实际使用习惯,本书直接使用Embedding 这个词。视频Embedding的主要作用是从视频中得到一个低维、稠密、浮点的特征向量表示,这个特征向量是对整个视频内容的总结和概括,使得不同视频Embedding之间的距离(如欧式距离或余弦距离)反映了对应视频之间的相似性。如果两个视频的语义内容接近,比如是同一类视频,或者同一部电视剧的不同集,那么它们之间的Embedding 特征距离近、相似度高;反之,如果两个视频不是同一类视频,那么它们之间的Embedding 特征距离远、相似度低。
动作识别和时序动作定位都属于预测型任务,在训练好一个深度学习模型之后,输入一个视频,模型会预测出这个视频包含的动作(动作识别),或者更进一步识别出视频包含的动作的起止时序区间(时序动作定位)。而视频Embedding是一种表示型任务,输入一个视频,模型会得到该视频的向量化表示。
视频Embedding是非常重要的物品画像(Profile),或称为内容画像。画像的理念起源于营销领域,营销人员需要对客户有精准的认识,从而有针对性地对客户和市场制订营销方案(王,2020)。视频Embedding的应用非常广泛:
● 相比于手工设计的视频特征,通过深度学习技术学习得到的视频Embedding 表示能力更强,Embedding 特征本身就包含大量有价值的信息,可以作为重要的视频推荐系统特征。
● 由于视频Embedding之间的距离反映了视频之间的相似度,因此可以基于视频Embedding 进行视频检索(Video Retrieval)。相比于基于文字信息(如视频标题、分类、标签等)进行视频检索,利用视频Embedding 可以实现以视频搜视频,在视频Embedding的基础上,还可以利用一个视频片段检索对应的完整的长视频。
● 视频Embedding 还可以用于发现视频盗用、搬运、二次加工等版权侵权行为,也可以避免给用户展示重复的视频内容,提升用户体验。传统的MD5(Message-Digest Algorithm 5,内容-摘要算法5)可以将视频映射为一个字符串,MD5计算虽然十分高效,但是这种算法对内容十分敏感,即使是对视频做微小的变化,得到的字符串也会不同。利用视频 Embedding,我们希望只要视频主要内容不变,即使视频有些微小变化,如分辨率变化、修改片头片尾、添加水印、文字等,也能得到数值相近甚至相同的视频Embedding 特征,这样才能更加灵活地进行内容重复检测。
● 由于视频Embedding是对视频中语义信息的总结和概括,因此可以基于视频Embedding 进一步完成视频标题生成、智能配乐等其他任务。
本书第6章将对常用的视频Embedding 算法进行介绍。对视频Embedding 及更一般的图Embedding(Graph Embedding)领域感兴趣的读者可以参考综述论文,如(Arsov & Mirceva,2019;Cui et al.,2019)等。