计算机系郑锋课题组提出多模态片段组合网络与训练新机制实现大规模广告视频智能剪辑

发布时间:2022-09-27


近日,南科大计算机系2019级本科生唐云龙以第一作者的身份在计算机视觉领域亚洲顶级会议Asian Conference on Computer Vision(ACCV2022)发表研究成果,题为Multi-modal Segment Assemblage Network for Ad Video Editing with Importance-Coherence Reward。本文由南方科技大学与腾讯广告多媒体AI中心共同完成,计算机科学与工程系副教授郑锋为论文通讯作者,南科大是论文第一单位。


视频广告因其比图像或文字广告更具吸引力、说服力和更丰富的内容而越来越受欢迎。通常广告主要为不同平台准备不同时长和内容的视频。然而,广告视频制作耗费时间和金钱,且从较长视频中剪辑出符合多平台时长要求、内容连贯且不丢失太多重要商业信息的短视频是非常困难的。因此,研发一种自动化、易于使用、低成本的视频剪辑算法十分必要。


已有方法采用视频时序分割+片段组合的做法(图1),通过模态对齐分割出信息完整片段,并以片段为节点、片段间关系为边建图,用DFS在图上搜索得到较优组合。该方法在组合阶段依赖额外的识别模型如NER、场景识别模型等获取伪标签,效率较低;同时暴力搜索忽视了对视频上下文的建模,且难以平衡输出结果的重要性和连贯性。最终输出的广告视频可用率仅有61.6%。

baseline.jpg

图1. 基于模态对齐的视频时序分割 + 基于图的片段组合搜索


为解决上述问题,研究团队提出端到端的多模态片段组合网络(M-SAN,如图2所示)。它能够对视频提取片段级别的多模态表示,充分地挖掘和利用视频中的多模态信息(包括视觉、文本、音频),它采用带glimpse操作的指针网络的编解码框架,推理时能够充分考虑已选片段与其他候选片段的关系,利于重要信息保留、连贯性提升,同时便于时长控制。

m_san.png

图2. 多模态片段组合网络M-SAN架构


为了有效利用无标注数据训练网络,研究团队采用强化学习的思路,设计了重要性-连贯性奖励函数(Importance-Coherence Reward),使用策略梯度算法训练M-SAN。其中,连贯性奖励函数的设计为本文主要创新之一(如图3所示),它通过顺时序两两组合广告中的文本内容(包括视频中的人声、台词、字幕等)得到文本对,借助在540万条广告文案上微调过的GPT-2获得文本对的PPL(困惑度)作为奖励为网络提供反馈,从自然语言层面提升视频内容连贯性。而重要性奖励计算所需的伪标签仅在训练时提取,训练完成后M-SAN不依赖额外的模型,可直接进行高效地推理。

ppl.png

图3. 利用GPT-2计算PPL map获取连贯性奖励


此外,研究团队收集了包含1000+高质量广告视频的数据集Ads-1k用于训练和实验,并提出Imp-Coh@Time评价指标来评估广告视频剪辑模型的性能。对比实验表明M-SAN超越之前的方法达到SOTA水平;消融实验表明多模态的视频特征与glimpse操作有助于模型性能提升;实际测试中M-SAN剪辑输出视频可用率高达85.9%。目前该模型已被部署至腾讯广告智能创作引擎,上线投入使用。


该论文基于唐云龙、徐思婷同学大三的创新实践兼南科大-腾讯合作项目《广告场景中的视频剪辑》的研究成果,两人分别为论文的第一、第二作者。该项目在郑锋老师的博士生王腾、腾讯的林琴老师的指导下顺利完成。其中,王腾为项目的实验与论文的写作提供了全面的指导,对本科生作者的科研能力的提升帮助极大;林琴老师为项目提供了大量技术指导,郑锋老师与腾讯的姜文浩老师为项目提供了必不可少的资源。


一作简介

唐云龙,2019级本科生,智能科学与技术专业,研究兴趣为视觉语言模型、视频理解、多模态内容编辑与生成等,大三在郑锋老师的推荐下进入腾讯实习11个月,期间兼顾课业、实习与科研,同时担任腾讯与商汤科技的南科大校园大使。


会议介绍

Asian Conference on Computer Vision(ACCV)由亚洲计算机视觉联盟(AFCV)举办。1993年举办第一届,每两年举办一次。ACCV为中国计算机学会CCF推荐人工智能会议,是计算机视觉领域亚洲顶级会议,仅次于计算机视觉三大国际顶会(CVPR、ICCV、ECCV),近年学术水平及等级进一步提高。2018年2020年ACCV分别在澳大利亚珀斯和日本京都举行。2022年第16届ACCV将在中国澳门举行。


南科大计算机系培养特色

南方科技大学计算机科学与工程系从创系之初就强调本科生的综合能力培养,以实际问题为导向,以项目为驱动,以学科交叉融合为辅助,以“学生项目小组+导师”配对的方式从大三开始每周指导本科生做多样的工程或科研项目。这样的培养方式极大地提高了学生们的动手能力、抽象思维能力、沟通表达能力和团队精神,为学生的长期发展打下了坚实的基础,促进学生从知识学习型向知识创造型转变。


南科大视觉智能与感知实验室

实验室致力于跨媒体技术、多模态感知等领域的相关研究,取得了一系列重要的科研成果。近五年,已在人工智能CCF推荐的A类国际顶级期刊和会议上发表学术论文50余篇,在多个国际重要竞赛中均取得了领先名次。


腾讯广告多媒体AI中心

腾讯广告多媒体AI中心聚焦腾讯广告场景,负责多媒体内容的分析、理解、编辑、生成、安全等全链路前沿AI技术研发,持续推进腾讯广告智能化进程。当前团队已构建较为完善的多媒体AI能力矩阵,在此基础上搭建的广告智能创作引擎、广告智能审核平台、广告多模态理解系统、广告相似检索系统,均已成为腾讯广告基建中不可或缺的部分。


论文链接:

https://arxiv.org/abs/2209.12164