我系危学涛课题组在人工智能伦理研究方面取得科研进展

发布时间:2024-10-06


近日,危学涛课题组关于人工智能伦理(AI Ethics)的3篇研究论文被NeurIPS 2024录用,其中一篇被收录为Spotlight (录取率为~3%)。神经信息处理系统大会(Conference on Neural Information Processing Systems,简称 NeurIPS)是人工智能领域最权威的会议之一,也是中国计算机学会推荐的 A 类会议。今年的会议NeurIPS 2024 将于 12月10日至15日在加拿大温哥华的 Vancouver Convention Center 举行。

3.png

1、Does Egalitarian Fairness Lead to Instability? The Fairness Bounds in Stable Federated Learning Under Altruistic Behaviors

该论文探讨并回答了公平联邦学习实践中的一个关键性问题:追求平等公平性是否会导致系统不稳定。研究团队发现,客户端之间的利他行为及其朋友关系的拓扑结构对构建稳定且公平的联邦学习系统起着重要影响。基于此,团队构建了联邦学习环境下的利他主义联盟形成博弈模型,并证明了在三类不同客户端行为模式(完全自私、完全利他和友好利他)中,核心稳定的联邦学习系统所能够实现的最优平等公平性边界与客户端数据集的异质性以及朋友关系网络的拓扑结构的量化关系。该研究为设计兼具公平性与稳定性的联邦学习系统提供了理论依据,有助于在实际应用中建立合理的公平性上限,确保系统最大化地满足社会福利和伦理标准。

2、Unveiling the True Symmetric Moral Consistency of Large Language Models

本研究揭示了大语言模型(Large Language Models)在道德场景中缺乏对称一致性的问题,并深入分析了模型在不同情境下的表现及其原因。研究设计了三种实验方案:位置交换、选项交换和全交换,发现LLMs在道德场景下的对称一致性受到选择偏见和位置偏见的显著影响。LLMs在道德决策任务中表现出的不一致行为可能会带来潜在伦理风险,阻碍其在现实世界中的部署。为应对这一现象,论文基于KL散度构建了一个有效的评估框架,揭示并缓解了位置偏见和选择偏见对模型一致性的影响,为确保大语言模型技术产生积极影响和负责任部署提供了有价值的启示。

3、Association of Objects May Engender Stereotypes: Mitigating Association-Engendered Stereotypes in Text-to-Image Generation

该论文发现并缓解了T2I(Text-to-Image)扩散模型中因多个对象相互关联而引发的刻板印象问题。该工作的核心是通过构建概率分布对齐的数学模型,并借助CLIP和Transformer模型为提示词生成特定的敏感约束,从而对扩散模型输出进行约束,以实现对复杂刻板印象的缓解。具体来说,针对原始T2I结构,该论文创新性地构造了一个三维的CLIP来捕捉图像及其刻板印象的特征关联,借助学习到的关联利用transformer生成有针对性的敏感约束,最后通过嵌入敏感约束,利用原始模型优良的语义理解能力,在采样过程调整有刻板印象的噪声分布向无刻板印象的噪声分布对齐,从而达到刻板印象的缓解目标,为生成式人工智能有效解决复杂场景中的偏见和刻板印象等伦理问题奠定了坚实的基础。

上述三篇论文的第一作者分别是危学涛课题组的博士研究生高嘉时、硕士研究生周子懿和硕士研究生周俊磊;第一单位是南方科技大学,危学涛研究员为唯一通讯作者。 危学涛课题组欢迎人工智能、伦理学、心理学和认知科学等多学科背景的学生加入, 一起推动人工智能伦理治理的交叉研究, 为AI for Social Good贡献一份“计算”的力量。