南科大计算机系唐博团队在数据库领域取得多项研究成果

发布时间:2021-06-09

2021年来南科大计算机科学与工程系唐博课题组在时空数据库查询处理、知识图谱、信息检索等方向取得重要研究成果进展,共计在中国计算机学会推荐会议和期刊目录A类(以下简称“CCF-A”)会议和期刊上(SIGMOD、ICDE、SIGIR、TKDE)发表论文7篇、CCF-B类期刊Information Systems、Geoinformatica上发表论文2篇。 

【影响力分析】

商品影响力分析在商业智能应用(如商品推广、广告策略等)中有着十分重要的作用,唐博课题组和新加坡管理大学Kyriakos Mourtidis教授在数据库领域CCF-A类会议SIGMOD上首次提出mIR问题:给定用户数据集和商品数据集计算连续商品空间的高影响力区域,即在该区域的任意一个商品至少会成为m个用户的前k查询结果。该工作提出算法的计算效率比当前最优方法高出2-3个数量级。此外该技术还能用来高效回答商品开销最优化、商品提升策略优化等问题。南科大唐博为论文第一作者,17级本科生韩铭基为唯一本科生作者。此外唐博及其指导的硕士研究生李可明与合作者针对现有Top-K查询和Skyline查询的不足提出ORU和ORD算子,该工作被SIGMOD长文接收,成为全球为数不多在SIGMOD2021上发表两篇长文的数据库研究团队。

微信图片_20210608105353.png

图1:ORU和ORD算子在2018-2019年NBA球员数据上的案例分析(k=2,m=6) 

【知识图谱应用】

基于图的频繁模式挖掘问题在工业界中具有广泛应用(如金融领域、社交网络、新冠病毒等)。唐博课题组与澳门大学智慧城市物联网国家重点实验室数据科学研究中心主任余亮豪教授团队在ICDE 2021的研究长文中提出基于two-pass join机制的频繁模式挖掘算法,大幅度提高了现有算法的计算效率。南方科技大学博士生曾剑为论文第一作者,唐博为论文通讯作者,研究助理教授晏潇和2017级本科生韩铭基为论文合作者。该研究工作已被应用于新型冠状病毒图谱的知识挖掘和药物发现。

微信图片_20210608105417.png 

图2:基于新型冠状病毒知识图谱的频发模式挖掘 

【近似查询处理】

随着大数据时代的到来,近年来近似查询处理成为数据库领域的热门研究问题。针对时空数据库中常用的距离分布函数问题,唐博课题组和香港理工大学Man Lung Yiu教授和Qing Li教授合作提出具有理论准确性保证的高效距离计算框架。该研究工作发表在CCF-A类期刊IEEE Transaction on Data Engineering(TKDE,JCR-I区)上。南方科技大学访问学生、香港理工大学博士章佳豪为论文第一作者,唐博为论文通讯作者。

微信图片_20210608105421.png

图3:累计距离分布函数计算方法在时序数据,脑电波数据和轨迹数据上的应用

 

南方科技大学数据库课题组的研究得到国家自然科学基金、广东省自然科学基金、广东省教育厅新冠肺炎疫情防控科研专项、广东省类脑智能重点实验室、深圳市基础研究自由探索和深圳市斯发基斯图灵研究院的纵向科研经费与来自华为、阿里巴巴、字节跳动等国际知名IT企业的横向经费支持。