科研进展|我系于仕琪团队提出基于通用视觉大模型的步态识别框架
导言:本成果已被IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2024会议接收。CVPR 是人工智能领域最有影响力的学术会议,在Google Scholar Metrics影响力排行榜中位列第4,仅次于Nature、新英格兰医学和Science。
视觉大模型(Large Vison Models, LVMs)是当前研究热点,但如何将视觉大模型的强大能力充分赋能具体下游任务中是前沿研究者们关切的核心问题。南方科技大学计算机科学与工程系于仕琪教授课题组对该问题进行深入研究,探索出了一种基于视觉大模型的步态识别方法(BigGait)。该方法展现出利用通用视觉特征表征步态模式的巨大潜力,有望开启步态识别任务的大模型时代,同时为如何运用大模型增强下游任务提供了成功案例
步态识别是最具有潜力的远距离身份识别技术之一。然而现有的步态识别方法严重依赖有监督的上游模型(人体分割模型和姿态估计模型等)去显式的提取步态表征(人体剪影,骨架和3D 蒙皮等),这将不可避免的引入昂贵的样本标注成本和累积误差。为了解决这个问题,该团队探索出了一种以无监督的方式从视觉大模型中提取隐式步态表征的框架(BigGait)。在多个评估数据集上的实验表明,BigGait在本域任务和跨域任务上都显著优于传统步态识别方法。
图1.BigGait的整体框架图
图2. BigGait提取的隐式步态特征可视化
论文题为BigGait: Learning Gait Representation You Want by Large Vision Models。该研究由南方科技大学和密歇根州立大学共同合作完成。该论文的共同第一作者为南科大计算机系2022级硕士研究生叶顶强和南科大计算机系2021级博士研究生樊超,通讯作者为我系于仕琪副教授,南方科技大学为论文第一单位。
于仕琪,南方科技大学计算机科学与工程系副教授,2002年于浙江大学竺可桢学院获得计算机科学与技术学士学位,2007年于中国科学院自动化研究所获得模式识别与智能系统博士学位。他的主要研究领域是步态识别和视觉目标检测。在步态识别方面,创建的CASIA-B步态数据库目前被作为本领域的评估标准,是使用最广泛的评估库之一;所创建的OpenGait开源项目已经成为步态识别领域主要的算法评估框架。在目标检测方面,人脸检测算法被世界排名前100及多家上市公司采用,同时也被众多的中小企业广泛使用。在遥感图像处理方面获2021年度广东省科学技术奖自然科学奖二等奖。他在IEEE TPAMI、IEEE TIFS、IEEE TBIOM、PR、CVPR、AAAI、ECCV、IJCB等发表论文近100篇。
文章链接(复制至浏览器可访问):
https://arxiv.org/abs/2402.19122