我系学子在SIGMOD2024程序竞赛中再次获得冠军
近日,数据库领域全球顶级学术会议 SIGMOD 2024在智利首都圣地亚哥落下帷幕,在本届会议举办的SIGMOD 2024的程序竞赛(ACM SIGMOD Programming Contest)中,由南方科技大学和浙江大学组成的两支联合参赛队伍Alaya 和biejuanle在南科大唐博副教授和浙江大学李环教授联合指导下从全球所有参赛队伍中脱颖而出,进入Finallist,其中Alaya队获得全球冠军,参赛队员受邀参加了SIGMOD 2024国际会议。这是南科大计算机系数据库课题组自2020年组织学生参加SIGMOD程序竞赛以来获得的第三个世界冠军。本次竞赛中,Alaya队包括南科大计算机系大二学生何俞均、郑轶涛,大四学生陈言麒,硕士研究生陈伟键和博士研究生向隆,biejuanle 队包括南科大计算机系大二学生洪朝阳、李婉婷、冯照航、梁沛然和大三学生张佳乐、王宇杰。
本次竞赛的任务为在有属性约束的条件下完成向量检索索引的构建与查询,这是向量检索领域的新挑战。在该任务中,给定一千万条由微软大型自然语言表示模型图灵v5编码的100维向量数据,每条向量数据还包含一个分类属性C与一个时间戳属性T。参赛队伍需要在给定时间内对这一千万条数据建立索引并完成纯向量检索、分类属性过滤条件下的向量检索、时间戳范围过滤条件下的向量检索、同时满足分类属性与时间戳范围过滤条件的向量检索等4种检索需求。
属性约束条件下的向量检索问题,在传统基于图的向量索引结构实现上面临巨大挑战。两支队伍的同学创新性地提出了一系列解决方案在时效和准确度上都达到了较高水平。尤其在准确度方面,Alaya队伍的同学尽管采用了近似算法,但其召回率接近100%,已经超出了测评系统所能评估的最小误差范围,从而以召回率突破0.9999锁定了全球第一。本次比赛共有20余支来自世界知名高校和研究机构参赛,包括德国哈索·普拉特纳研究院、慕尼黑工业大学、复旦大学、浙江大学等。
ACM SIGMOD是美国计算机协会ACM下属的SIG系列学术会议,始于1970年,是国际上公认的在数据管理、数据库、数据科学方向具有最高学术地位的国际会议。每年的SIGMOD程序竞赛(ACM SIGMOD Programming Contest)题目取材于工业界所面临的各种数据管理难题,旨在促进全球各高校和科研院所的数据科学专业研究生和博士生的学术交流,提高解决实际问题的能力。
南方科技大学数据库课题组由唐博副教授创建于2017年,隶属于计算机系,目前有全职教师3人,硕士博士研究生21人,研究助理20余人。课题组研究涵盖整个数据处理技术栈,包括数据库系统,数据查询处理算法,数据可视化等方向。课题组致力于推进国产数据系统和核心算法研究,成果发表在SIGMOD,VLDB,SIGIR,ICDE,EuroSys,TKDE,TPDS等顶级会议期刊上。目前,课题组和华为、阿里巴巴、字节跳动、Amazon等公司建立了长期合作关系。