科研进展 | 我系史玉回教授团队提出新的具身智能体训练框架

发布时间:2024-03-06


导言:本成果已被IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2024会议接收。CVPR 是人工智能领域最有影响力的学术会议,在Google Scholar Metrics影响力排行榜中位列第4,仅次于Nature、新英格兰医学和Science。


近期,具身智能领域研究热点聚焦于利用大型预训练基础模型来构建通用的具身智能体,其有望替代人类完成日常生活中的一部分工作。这些模型 (例如大语言模型LLMs) 受益于他们从互联网规模的预训练数据中学习到的大量先验知识,能够根据外部环境的状态反馈,来完成各种任务,例如代码生成,商品推荐,甚至是机器人操作。此外,通过整合视觉-语言模型(Vision-Language Models),智能体可以直接理解视觉输入,并进行任务的推理、规划和执行。


然而,现有的工作都忽略了现实世界是不断演化的,因此在预先收集的静态数据集上训练的基础模型无法对齐现实世界的动态演化。当使用这些基础模型作为智能体,在解决任务时可能遭遇到严重的幻觉问题(例如生成错误、不存在、误导性的虚假信息)。为了解决这一问题,我们探索了使用当前最先进的大语言模型(GPT4)作为“教师”,通过交互式的跨模态模仿学习,在动态的世界中训练具身智能体(学生)的可能性,我们的方法有效地对齐了智能体行为与现实世界的演化。

微信图片_20240305162330.png

图1. 交互式的跨模态模仿学习训练框架


论文题为Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld。该研究由南方科技大学、马里兰大学帕克分校、悉尼科技大学、和京东探索研究院共同合作完成。该论文第一作者为南科大计算机系2020级博士研究生杨一君,通讯作者为我系史玉回讲席教授,南方科技大学为论文第一单位。

 

史玉回讲席教授于2016年9月加入南方科技大学计算机科学与工程系。他在群体智能、计算智能、演化计算等领域已取得诸多学术成果。他在1998年与Eberhart教授提出了改进型粒子群算法,该算法长期以来为大多数粒子群算法研究者所用。他是头脑风暴优化算法的创始人。迄今为止,他已在国际顶尖学术期刊及会议发表论文200余篇,谷歌总引用次数超过58000次,H-指数为49。