我系徐炀副教授在大语言模型生成质量评估方面取得学术进展
语言大模型是当前研究热点,但如何评估机器生成的语言与人类自然语言的差异是一个关键且困难的问题。南方科技大学计算机科学与工程系计算语言学与意识科学(CLCS)课题组对这一问题进行了深入研究,提出了一种基于信息熵频谱分析的新型方法。这种方法可有效地用于评估大语言模型(large language models, LLMs)的生成质量,并检测与人类自然语言的区别。这种新型方法的灵感来源于心理语言学领域中关于语言生成过程的信息熵周期性变化规律的相关研究。基于这种普遍规律而获得的频域测度,可以有效地反映模型生成的语言与自然语言之间的区别,并从认知负载的角度,对“为什么模型说的话有时候不太像真人说的话”提供了新的解释。
图1
图2
该项研究成果已经被人工智能领域的顶级学术会议Thirty-seventh Conference on Neural Information Processing Systems(NeurIPS 2023)接收,论文题为FACE: Evaluating Natural Language Generation with Fourier Analysis of Cross-Entropy,南科大计算机系徐炀副教授为论文的共同第一作者和通讯作者。
徐炀副教授于2023年6月加入南方科技大学计算机科学与工程系。目前,徐炀副教授领导的CLCS课题组正进行一系列研究,以期攻克以下难题:FACE量纲的适用范围(开放式生成和面向任务的生成)、模型的规模效应、不同语言(中、英文等)的适用性。同时,徐炀副教授团队也将探索频谱分析的思路,用之分析和解释多模态语言,以及其它更广泛类型的生成式AI的生成质量评估。
文章链接:
https://arxiv.org/abs/2305.10307
https://neurips.cc/virtual/2023/poster/70195