南科大计算机系本科生在视觉领域国际顶级期刊发表研究成果

发布时间:2022-09-19

近日,南方科技大学计算机科学与工程系本科生郜晨阳以第一作者的身份在国际顶级期刊 IEEE Transactions on Image Processing 发表研究成果,题为 "Conditional Feature Learning based Transformer for Text-Based Person Search"。本文由南方科技大学与腾讯优图实验室共同完成,计算机科学与工程系副教授郑锋为论文通讯作者,南科大是论文第一单位。本文得到了腾讯犀牛鸟精英人才计划的支持,在郑锋老师的推荐和支持下,郜晨阳同学入选了2020年的腾讯犀牛鸟精英人才计划。


1.jpg

图1. 方法整体框架


近年来, 随着公共安全需求的增加, 视频监控技术得到了广泛的应用, 产生了海量的视频监控数据, 然而从如此大规模的视频数据中搜索犯罪嫌疑人十分困难,因此能够从视频监控中自动搜寻行人的算法具有重要的应用价值。基于文本的行人重识别(text-based person search)是解决该问题的一种有效方法。现有的基于Transformer的方法大多简单地将图像特征和文本特征进行拼接,然后输入到Transformer中,暴力地学习一个跨模态表征。但是这种弱监督的学习方式难以显式地建立图像区域和单词之间的关联,导致较差的特征分布。为了解决这个问题,我们改进了Transformer的结构,改进后的Transformer可以显式地学习到图像区域和单词之间的关联,对于每一个图像区域或者单词,都会输出一个分数来衡量它和另一个模态的匹配程度。实验结果表明提出方法的精度大幅度优于相关的前沿方法。该论文基于郜晨阳同学本科时期创新实验和腾讯犀牛鸟精英人才计划的研究成果,郜晨阳为论文第一作者。


2.jpg

图2. Conditional Feature Learning based Transformer


南科大计算机系培养特色

南方科技大学计算机科学与工程系从创系之初就强调本科生的综合能力培养,以实际问题为导向,以项目为驱动,以学科交叉融合为辅助,以“学生项目小组+导师”配对的方式从大三开始每周指导本科生做多样的工程或科研项目。这样的培养方式极大地提高了学生们的动手能力、抽象思维能力、沟通表达能力和团队精神,为学生的长期发展打下了坚实的基础,促进学生从知识学习型向知识创造型转变。


腾讯优图实验室

成立于2012年,是腾讯公司旗下顶级人工智能实验室。优图聚焦计算机视觉,专注人脸识别、图像识别、OCR等领域开展技术研发和行业落地,在推动产业数字化升级过程中,优图始终专注基础研究、产业落地两条腿走路的发展战略,与腾讯云与智慧产业深度融合,挖掘客户痛点,切实为行业降本增效。与此同时,优图关注科技的社会价值,践行科技向善理念,致力于通过视觉AI技术解决社会问题,帮助弱势群体。


腾讯犀牛鸟精英人才计划

于2017年首次发布,旨在选拔对科学研究有热情、有潜力的学生,帮助其在科研道路上探索前行。入选学生将在校企双导师联合培养下,以产业真实场景及海量数据为科学试验田,将理论研究和实践结合,验证学术理论,发表高水平论文。携手高校培养一批勇于求真探索,支撑科技自主创新的中坚力量。截至目前,项目培养来自海内外70多所高校及科研院所的280余位科研精英,多项科研成果已在真实场景及数据中验证、转化,并发表于NeurIPS、CVPR、AAAI等多个国际学术会议。


期刊介绍

IEEE Transactions on Image Processing是计算机视觉领域国际顶级期刊,SCI一区,中国计算机学会推荐的计算机图形学与多媒体领域A类期刊,2022年影响因子11.041。


南方科技大学视觉智能与感知实验室

实验室致力于跨媒体技术、多模态感知等领域的相关研究,取得了一系列重要的科研成果。近五年,已在人工智能CCF推荐的A类国际顶级期刊和会议上发表学术论文50余篇,在多个国际重要竞赛中均取得了领先名次。


论文链接:

https://ieeexplore.ieee.org/document/9893017