冠军!南科大计算机系数据库课题组斩获NeurIPS’21大规模向量检索大赛全球第一

发布时间:2021-12-26


近日,在人工智能领域顶级国际学术会议 NeurIPS'21 上,备受瞩目的首届国际向量检索大赛 BigANN 顺利落下帷幕。由南方科技大学计算机系唐博助理教授领导的数据库课题组研究助理教授晏潇老师、2021级联培博士生卞证(香港理工大学导师姚文龙教授)和2019级本科生骆家睿联合ZilliZ公司组成的战队在赛道二“基于SSD的大规模检索”中,测试性能位列世界第一,斩获冠军!


1.jpg


图1. 南方科技大学参赛成员线上讨论(左上晏潇、右上骆家睿、下中卞证)


近年来,随着机器学习的蓬勃发展,语音、图像、视频等非结构化数据能够方便地被编码为向量。因此,向量检索成为了分析利用海量非结构化数据的关键技术,在智能搜索、推荐系统、自然语言处理等领域有着重要应用。大量高校和公司都对向量检索技术有持续的研究投入。NeurIPS首届国际向量检索比赛由来自微软研究院、Facebook 人工智能研究所、卡内基梅隆大学、Yandex 等知名公司及大学牵头组织,云集了来自清华大学、英特尔、英伟达、快手科技等学术界与工业界的优秀参赛选手。此次比赛使用了六个十亿级别的数据集,关注相似性检索和范围检索,Facebook、Microsoft Turing、Microsoft Bing、Yandex 专门为本次比赛发布了四个新数据集。本次比赛共设置了三个赛道,其中赛道二关注综合利用小内存和廉价SDD实现大规模数据集上的高效检索,难点是设计合适的索引结构,在减少磁盘读取的同时,保证高检索质量。


图片2.png


图2. 数据库团队方案测试性能


南方科技大学数据库团队提出的SSD页对齐桶和桶上邻近图检索方案,结合ZilliZ的标量量化技术,大幅减少了从磁盘读取的数据量,奠定了比赛夺魁的基础。方案在 Facebook 的 SimSearchNet++ 数据集上表现出优异的性能。该数据集使用范围查询,需要找到查询向量一定半径内的所有向量,由于各个查询的结果集大小差异大,对查询方案要求较高。经比赛主办方测试,数据库团队方案在 SimSearchNet++ 数据集上取得了高达88.573%的召回率,远超基线方案的16.274% ,确立了十亿级别数据集上范围查询性能的新标杆。


南方科技大学数据库课题组

南方科技大学数据库课题组由唐博助理教授创建于2017年,隶属于计算机系,目前有全职教师4人,硕士博士研究生15人,研究助理20人。课题组研究涵盖整个数据处理技术栈,包括数据库系统,数据查询处理算法,数据可视化等方向。课题组致力于推进国产数据系统和核心算法研究,成果发表在SIGMOD,VLDB,SIGIR,ICDE,EuroSys,TKDE,TPDS等顶级会议期刊上。目前,课题组和ZilliZ,华为、阿里巴巴、字节跳动、Facebook等公司建立了长期合作关系。