© 2022 All Rights Reserved.粤ICP备14051456号
近日,南科大计算机系2019级本科生唐云龙以第一作者的身份在计算机视觉领域亚洲顶级会议Asian Conference on Computer Vision(ACCV2022)发表研究成果,题为Multi-modal Segment Assemblage Network for Ad Video Editing with Importance-Coherence Reward。本文由南方科技大学与腾讯广告多媒体AI中心共同完成,计算机科学与工程系副教授郑锋为论文通讯作者,南科大是论文第一单位。视频广告因其比图像或文字广告更具吸引力、说服力和更丰富的内容而越来越受欢迎。通常广告主要为不同平台准备不同时长和内容的视频。然而,广告视频制作耗费时间和金钱,且从较长视频中剪辑出符合多平台时长要求、内容连贯且不丢失太多重要商业信息的短视频是非常困难的。因此,研发一种自动化、易于使用、低成本的视频剪辑算法十分必要。已有方法采用视频时序分割+片段组合的做法(图1),通过模态对齐分割出信息完整片段,并以片段为节点、片段间关系为边建图,用DFS在图上搜索得到较优组合。该方法在组合阶段依赖额外的识别模型如NER、场景识别模型等获取伪标签,效率较低;同时暴力搜索忽视了对视频上下文的建模,且难以平衡输出结果的重要性和连贯性。最终输出的广告视频可用率仅有61.6%。图1. 基于模态对齐的视频时序分割 + 基于图的片段组合搜索为解决上述问题,研究团队提出端到端的多模态片段组合网络(M-SAN,如图2所示)。它能够对视频提取片段级别的多模态表示,充分地挖掘和利用视频中的多模态信息(包括视觉、文本、音频),它采用带glimpse操作的指针网络的编解码框架,推理时能够充分考虑已选片段与其他候选片段的关系,利于重要信息保留、连贯性提升,同时便于时长控制。图2. 多模态片段组合网络M-SAN架构为了有效利用无标注数据训练网络,研究团队采用强化学习的思路,设计了重要性-连贯性奖励函数(Importance-Coherence Reward),使用策略梯度算法训练M-SAN。其中,连贯性奖励函数的设计为本文主要创新之一(如图3所示),它通过顺时序两两组合广告中的文本内容(包括视频中的人声、台词、字幕等)得到文本对,借助在540万条广告文案上微调过的GPT-2获得文本对的PPL(困惑度)作为奖励为网络提供反馈,从自然语言层面提升视频内容连贯性。而重要性奖励计算所需的伪标签仅在训练时提取,训练完成后M-SAN不依赖额外的模型,可直接进行高效地推理。图3. 利用GPT-2计算PPL map获取连贯性奖励此外,研究团队收集了包含1000+高质量广告视频的数据集Ads-1k用于训练和实验,并提出Imp-Coh@Time评价指标来评估广告视频剪辑模型的性能。对比实验表明M-SAN超越之前的方法达到SOTA水平;消融实验表明多模态的视频特征与glimpse操作有助于模型性能提升;实际测试中M-SAN剪辑输出视频可用率高达85.9%。目前该模型已被部署至腾讯广告智能创作引擎,上线投入使用。该论文基于唐云龙、徐思婷同学大三的创新实践兼南科大-腾讯合作项目《广告场景中的视频剪辑》的研究成果,两人分别为论文的第一、第二作者。该项目在郑锋老师的博士生王腾、腾讯的林琴老师的指导下顺利完成。其中,王腾为项目的实验与论文的写作提供了全面的指导,对本科生作者的科研能力的提升帮助极大;林琴老师为项目提供了大量技术指导,郑锋老师与腾讯的姜文浩老师为项目提供了必不可少的资源。一作简介唐云龙,2019级本科生,智能科学与技术专业,研究兴趣为视觉语言模型、视频理解、多模态内容编辑与生成等,大三在郑锋老师的推荐下进入腾讯实习11个月,期间兼顾课业、实习与科研,同时担任腾讯与商汤科技的南科大校园大使。会议介绍Asian Conference on Computer Vision(ACCV)由亚洲计算机视觉联盟(AFCV)举办。1993年举办第一届,每两年举办一次。ACCV为中国计算机学会CCF推荐人工智能会议,是计算机视觉领域亚洲顶级会议,仅次于计算机视觉三大国际顶会(CVPR、ICCV、ECCV),近年学术水平及等级进一步提高。2018年2020年ACCV分别在澳大利亚珀斯和日本京都举行。2022年第16届ACCV将在中国澳门举行。南科大计算机系培养特色南方科技大学计算机科学与工程系从创系之初就强调本科生的综合能力培养,以实际问题为导向,以项目为驱动,以学科交叉融合为辅助,以“学生项目小组+导师”配对的方式从大三开始每周指导本科生做多样的工程或科研项目。这样的培养方式极大地提高了学生们的动手能力、抽象思维能力、沟通表达能力和团队精神,为学生的长期发展打下了坚实的基础,促进学生从知识学习型向知识创造型转变。南科大视觉智能与感知实验室实验室致力于跨媒体技术、多模态感知等领域的相关研究,取得了一系列重要的科研成果。近五年,已在人工智能CCF推荐的A类国际顶级期刊和会议上发表学术论文50余篇,在多个国际重要竞赛中均取得了领先名次。腾讯广告多媒体AI中心腾讯广告多媒体AI中心聚焦腾讯广告场景,负责多媒体内容的分析、理解、编辑、生成、安全等全链路前沿AI技术研发,持续推进腾讯广告智能化进程。当前团队已构建较为完善的多媒体AI能力矩阵,在此基础上搭建的广告智能创作引擎、广告智能审核平台、广告多模态理解系统、广告相似检索系统,均已成为腾讯广告基建中不可或缺的部分。论文链接:https://arxiv.org/abs/2209.12164
2022-09-27
近日,南方科技大学计算机科学与工程系本科生郜晨阳以第一作者的身份在国际顶级期刊 IEEE Transactions on Image Processing 发表研究成果,题为 "Conditional Feature Learning based Transformer for Text-Based Person Search"。本文由南方科技大学与腾讯优图实验室共同完成,计算机科学与工程系副教授郑锋为论文通讯作者,南科大是论文第一单位。本文得到了腾讯犀牛鸟精英人才计划的支持,在郑锋老师的推荐和支持下,郜晨阳同学入选了2020年的腾讯犀牛鸟精英人才计划。图1. 方法整体框架近年来, 随着公共安全需求的增加, 视频监控技术得到了广泛的应用, 产生了海量的视频监控数据, 然而从如此大规模的视频数据中搜索犯罪嫌疑人十分困难,因此能够从视频监控中自动搜寻行人的算法具有重要的应用价值。基于文本的行人重识别(text-based person search)是解决该问题的一种有效方法。现有的基于Transformer的方法大多简单地将图像特征和文本特征进行拼接,然后输入到Transformer中,暴力地学习一个跨模态表征。但是这种弱监督的学习方式难以显式地建立图像区域和单词之间的关联,导致较差的特征分布。为了解决这个问题,我们改进了Transformer的结构,改进后的Transformer可以显式地学习到图像区域和单词之间的关联,对于每一个图像区域或者单词,都会输出一个分数来衡量它和另一个模态的匹配程度。实验结果表明提出方法的精度大幅度优于相关的前沿方法。该论文基于郜晨阳同学本科时期创新实验和腾讯犀牛鸟精英人才计划的研究成果,郜晨阳为论文第一作者。图2. Conditional Feature Learning based Transformer南科大计算机系培养特色南方科技大学计算机科学与工程系从创系之初就强调本科生的综合能力培养,以实际问题为导向,以项目为驱动,以学科交叉融合为辅助,以“学生项目小组+导师”配对的方式从大三开始每周指导本科生做多样的工程或科研项目。这样的培养方式极大地提高了学生们的动手能力、抽象思维能力、沟通表达能力和团队精神,为学生的长期发展打下了坚实的基础,促进学生从知识学习型向知识创造型转变。腾讯优图实验室成立于2012年,是腾讯公司旗下顶级人工智能实验室。优图聚焦计算机视觉,专注人脸识别、图像识别、OCR等领域开展技术研发和行业落地,在推动产业数字化升级过程中,优图始终专注基础研究、产业落地两条腿走路的发展战略,与腾讯云与智慧产业深度融合,挖掘客户痛点,切实为行业降本增效。与此同时,优图关注科技的社会价值,践行科技向善理念,致力于通过视觉AI技术解决社会问题,帮助弱势群体。腾讯犀牛鸟精英人才计划于2017年首次发布,旨在选拔对科学研究有热情、有潜力的学生,帮助其在科研道路上探索前行。入选学生将在校企双导师联合培养下,以产业真实场景及海量数据为科学试验田,将理论研究和实践结合,验证学术理论,发表高水平论文。携手高校培养一批勇于求真探索,支撑科技自主创新的中坚力量。截至目前,项目培养来自海内外70多所高校及科研院所的280余位科研精英,多项科研成果已在真实场景及数据中验证、转化,并发表于NeurIPS、CVPR、AAAI等多个国际学术会议。期刊介绍IEEE Transactions on Image Processing是计算机视觉领域国际顶级期刊,SCI一区,中国计算机学会推荐的计算机图形学与多媒体领域A类期刊,2022年影响因子11.041。南方科技大学视觉智能与感知实验室实验室致力于跨媒体技术、多模态感知等领域的相关研究,取得了一系列重要的科研成果。近五年,已在人工智能CCF推荐的A类国际顶级期刊和会议上发表学术论文50余篇,在多个国际重要竞赛中均取得了领先名次。论文链接:https://ieeexplore.ieee.org/document/9893017
2022-09-19
2022年8月8日,南方科技大学计算机科学与工程系图灵班暑期学术交流活动在工学院南楼813报告厅顺利举行。整场活动由计算机系主管教学副主任郝祁副教授主持。计算机系副主任王琦副教授、张进副教授、唐茗助理教授、陈馨慧助理教授等出席,并依次作主题分享。图灵班2020级和2021级全体同学参加了会议。活动现场 郝祁老师发言 在开场致辞中,郝祁老师首先概述了图灵班创立的背景,阐明了图灵班人才培养的重大意义,强调了图灵班人才培养的目标、培养环节和选拔机制,简述了课程教学、导师制、学术培养、海外平台和企业平台建设等相关内容,最后总结了目前的办学成效及面临的各方面挑战。 王琦老师作报告 王琦老师系统介绍了图灵奖的历史,通过图灵奖得主的研究领域、相关贡献和统计信息,着重讲解了计算机科学的发展历程、学科领域及多位图灵奖得主的故事。他希望通过图灵奖得主的故事,可以给同学们很多启发,可以激励大家能志存高远, “要有做大事的想法”、“忍受不确定的状态”、“比别人多努力10%”等,勤下功夫做大事。 张进老师作报告 张进老师分享了其研究团队在声音感知与毫米波感知上的最新成果,特别是在人的感知与健康方向的应用。她认为技术是无限的,随着新技术的发展,声波和毫米波在智能医疗、电气检测、交通流量控制、环境感知等方面将具有广泛的应用前景。她建议同学们要在本科阶段打牢基础,不必纠结于研究方向,要将眼光放长远,多探索、多尝试、多动手,找到自己内心的兴趣所在;同时要以开放的心态迎接新的研究领域和新的方向;不要计较一时的得失,要胸怀大志,脚踏实地地学习和做事,方能建立自己的能力体系。 唐茗老师作报告 唐茗老师以区块链、比特币、以太坊、挖矿、ALPHA GO等为例,深入阐释了用户在社交网络中的影响力、短视频平台对用户喜好的猜测、网页广告的定价、区块链的数据安全性等问题背后所蕴藏的原理,重点讲解了其数学上的理论支持及涉及到的回归模型、图论、博弈论等知识。 陈馨慧老师作报告 陈馨慧老师从生活中遇到的bug为切入点,通过生动的案例和通俗易懂的讲解,简要介绍了其研究团队提出的协作编程的创新原理和主要研究内容,包括协作测试与协作修复。同时,也介绍了基于开源软件项目的软件工程实践教学项目,鼓励学生多参与及贡献开源项目。在现场互动环节,针对同学们提出的问题,与会专家们进行了详细解答。郝祁老师作总结发言。他表示,系里主办此次活动,旨在希望同学们能够进一步了解计算机理论方面的研究方向和内容,并从中有所收获。他同时提出,大学期间在完成学业的同时,不仅要善于缓解自身的心理压力,多与老师们沟通交流,还要积极参加体育活动,提升身体素质和能力,才能成为一个身心健康全面发展的拔尖人才。
2022-08-11
由南科大计算机系宋轩研究员作为编委主任负责组织撰写的《国家空间数据智能年度发展报告》正式发布2022年8月7日, 由南科大计算机系宋轩研究员作为编委主任负责组织撰写的《国家空间数据智能年度发展报告》(以下简称“报告”)在“第三届中国空间数据智能学术会议SpatialDI 2022”正式发布,宋轩研究员作大会特邀报告介绍该报告的整体概况。2021年8月,宋轩研究员作为报告编委会主任和“第三届中国空间数据智能学术会议”程序委员会主席负责开始组织撰写该报告。在国家自然科学基金委员会和国内多位院士和资深专家的指导下,空间数据智能领域的多位知名专家学者受邀形成了撰写专家组,通过专家组成员间的通力合作,历经多轮审阅、修改后,历时一年最终形成该报告。《国家空间数据智能年度发展报告》凝聚了专家组的共同努力,也展现出了空间数据智能领域的众多专家学者在支撑国家空间数据智能发展战略上的责任担当。 编委主任孟小峰教授和宋轩研究员发布《国家空间数据智能年度发展报告》 宋轩研究员作大会特邀报告介绍《国家空间数据智能年度发展报告》概况空间数据是描述自然地理空间和人类活动空间所包含的人、物体、事件的信息。通常来说,空间数据具有空间位置信息、时间信息、地图信息和属性信息。与土地一样,具有空间位置信息的空间数据是一个国家拥有的具有战略意义的重要资源。我国幅员辽阔、人口众多,加上这十多年来快速发展的数字化建设,空间数据的现有量级十分巨大。伴随着各类传感器和全球定位系统(如北斗系统等)的更加广泛使用,诸如遥感数据、地图测绘、交通轨迹数据、手机信令数据、APP打卡数据等空间数据将持续增长,并带来巨大的价值。面对海量异构的空间数据,传统的数据感知存储技术和处理分析方法显然已经不适用,亟需对应的科学技术的发展,这正是空间数据智能逐渐兴起的原因。空间数据智能是利用先进通信技术、人工智能方法、大数据分析、先进计算机技术等技术方法对空间数据进行更好地感知、采集、分享、管理、分析及应用的一个多学科交叉的研究领域。空间数据和空间数据智能《国家空间数据智能年度发展报告》对空间数据智能的概念、发展趋势、核心技术以及应用场景做系统性阐述,对引领空间数据智能发展,支撑国家空间数据智能发展战略将起到重要作用。报告参编人员报告大纲报告概览:亮点一:分析空间数据智能的发展趋势《国家空间数据智能年度发展报告》对空间数据智能的概念做了介绍,并从空间数据智能与社会各领域的融合、国家政策、支持体系、5G技术、全球空间数据智能市场体量、碳中和、数据孤岛和数据安全等多角度、全方面对空间数据智能的最新发展趋势进行详细阐述。亮点二:总结了空间数据智能领域的关键技术空间数据智能领域是一个多学科交叉的研究领域,涉及诸多技术方法。《国家空间数据智能年度发展报告》对空间数据智能研究领域的技术方法进行凝练总结,对空间感知、时空数据库、时空数据挖掘、时空数据安全与隐私、边缘计算与雾计算、时空动态模拟、时空数据可视化等关键技术进行了详细的介绍。亮点三:揭示了中国在全球空间数据智能的发展现状《国家空间数据智能年度发展报告》通过详细总结了中外各国的空间数据智能研究领域的发展状况,揭示了我国在基于空间数据智能的科学研究、城市建设和产业发展等方面都具有领先地位。该部分内容可以帮助读者更好了解我国在全世界空间数据智能的综合实力。亮点四:阐述了空间数据智能对各行业的影响空间数据智能对我国各产业发展起着重要的促进作用,《国家空间数据智能年度发展报告》重点阐述了空间数据智能在交通基建、能源、城市灾害应急与响应、公共卫生与健康、国土空间规划等方面的重要作用。该部分内容可以帮助读者了解空间数据智能技术的实际应用场景。宋轩简介宋轩博士,2010年在北京大学获得博士学位,2010-2019年在日本东京大学任职博士后研究员,特任助理教授,特任副教授和副教授。2019年入职南方科技大学,目前是国家重点研发计划项目负责人,日本国家卓越研究员,“南方科技大学-东京大学超智慧城市联合研究中心”执行主任。他的主要研究方向为人工智能相关领域,包括大数据分析、数据挖掘和城市计算等。基于在“城市智能化管理”的学术贡献,2022年获得了中华人民共和国驻日本国大使奖(自然科学领域成就奖,唯一获奖人)。在过去10年间,他在计算机领域知名的国际期刊和会议上发表各类论文130余篇,其中发表在JCR一区或中国计算机协会推荐的A类期刊会议论文90余篇,发表学术专著一部,申请国内国际专利90余项,获得中国发明创业奖(个人奖),中国发明创新奖二等奖,中国产学研合作促进会创新奖(个人奖)。过去10年间,作为项目负责人(PI)承担各类科研项目,合同总金额超过4000万元人民币,相关研究成果产生了巨大的社会和经济效益。他的研究成果也被联合国“全球脉动”、探索频道、学习强国平台、人民周刊、中国科学报、中国改革报、中国网、中华网、科技日报等重点报道,并被美国国防部2018年发布的项目征集指南重点引用。南方科技大学计算机科学与工程系图文丨林贵旭、舒家阳编辑丨潘伟英审核丨于仕琪
2022-08-10
当时光的节点转到大三的下学期,我们感叹时节如流,当我们终于在尚未消散的疫情中返校,我们感谢每一位帮助我们的人。终于,我们在5月14日召开了2022春季学期的第一次线下班会,见到了彼此久违的笑容,畅所欲言,倾诉想念。班会由班长徐驰同学主持,参会人员有班主任计算机系副教授张锋巍老师,以及致仁2019级计算机班全体同学。这次班会的主要内容主要分为两部分,一是回顾过去,二是展望未来。会议现场首先,大家回顾了致仁书院计算机班过去一年的点点滴滴,从10月的班级组建,到第一次破冰,再到一场大规模的与COMPASS和CTF的团建。大家从互不相识,成为了一路的战友,开始分享成长的快乐,也一起承担学业的压力和痛苦。致仁书院计算机班的成长离不开每一个人的努力,我们也争取创造更多的辉煌。班级团建总结接下来徐驰同学和大家一起探讨了未来规划,包括保研、考研、就业、海外升学、创业、入伍等。他向大家讲解了香港的一些学校申请,包括中介的选择,促进同学间资源共享。徐驰同学探讨未来规划接着,班主任张锋巍老师向大家介绍美国PhD的申请经验。张老师是85后,他曾在美国韦恩州立大学担任博导并完整培养博士生,他从不同的角度向我们分析如何成功申请到一个好的PhD。张老师希望我们申请PhD不是因为被“卷”,而是认清自我之后的认真抉择。如果要申请,除了标化成绩,最重要的是科研能力和推荐信。张锋巍老师分享张老师向我们讲解了什么是好的科研能力,以及如何培养自己的科研能力,如何让对方导师信任你有足够的research potential等等,一针见血、干货满满。接着张老师向我们讲解如何选择导师与套词,以及申请成功之后的一些注意事项,高屋建瓴,大家都表示收获满满。与致仁书院陶小月院长云合影最后,张老师以一句话鼓励大家:“好消息一定伴随更多的痛苦,学海无涯苦作舟。”
2022-08-09
2022年5月14日,我系召开2022年春季战略研讨会,全面分析发展情况,谋划未来发展的长远目标和重大战略。与会人员围绕一流学科建设、博士点申报、拔尖人才培养、科学研究等问题积极建言、深入讨论。系全体教研序列、教学序列、研究序列、实验教学团队以及系办支撑团队等八十余人参会。计算机系主任姚新教授主持会议。会议现场 系主任姚新教授作开场报告。他首先分享我校计算机科学学科新晋ESI全球前1%喜讯。接着,他向全体参会人员阐述了计算机系从2016年建系到2030年,从人才、教学、科研三个方面分阶段的发展策略,为我系进一步高质量发展指明了战略方向和道路。姚新主任作报告系党总支书记、系副主任王琦副教授作计算机科学与技术一流学科建设报告。他首先详细介绍了我校“双一流”建设背景,随后深入分析和探讨了我系计算机学科距离进入“一流学科”建设差距以及如何进入“一流学科”建设两个重要问题。王琦副主任作报告系副主任史玉回教授作博士点申报介绍及动员报告。他首先强调了博士点申报对于我系未来发展具有重大战略意义,随后详细介绍了申报流程、申报周期等相关背景,最后他从师资队伍、人才培养、科学研究和培养环境等四大维度对申报要求展开了深入分析和探讨。史玉回副主任作报告系副主任郝祁副教授作计算机系拔尖人才培养探索报告。他首先介绍了图灵班的建设背景,然后详细阐述了图灵班培养的八个环节,并对每个环节面临的挑战进行了深入剖析。为拔尖人才培养的探索提供了新方向,引发了新思考。郝祁副主任作报告下午,新进科研教学人员作自我介绍。随后,进入分组讨论环节。与会人员充分交流,积极建言。四个分组讨论分别由杨双华教授、姚新教授、郝祁副教授、张殷乾教授主持,重点围绕如何提高计算机系国内及国际影响力、博士点申报、拔尖人才培养探索、青年人才项目申报等议题开展。分组讨论现场随后是分组组长汇报环节。杨双华教授姚新教授郝祁副教授张殷乾教授最后是总结报告,研讨会圆满结束。合影本次战略研讨会议题内容丰富,讨论深入充实,总结了经验,凝聚了共识,进一步明确了当下工作重点和未来持续发力的方向。
2022-08-09