![]()
这项由耶鲁大学领导的重要研究发表于2026年2月,论文编号为arXiv:2601.23228v1,为多智能体系统的训练方式带来了革命性的突破。研究团队首次提出了一种名为MAPPA的全新训练方法,让AI智能体团队能够像人类团队一样通过相互指导来共同学习和成长。
现代AI系统正在变得越来越复杂,单个智能体已经难以胜任许多现实世界的复杂任务。就像人类社会中,我们需要不同专长的专家协作完成大项目一样,AI领域也迫切需要多个智能体协同工作的解决方案。然而,如何训练这样的AI团队一直是个棘手难题。传统方法就像让一群学生在没有老师指导的情况下自学一样,效果往往不尽如人意。
耶鲁大学的研究团队创造性地引入了一个"AI教练"的概念,这个教练能够观察每个智能体的每一个动作,并即时给出详细的指导反馈。这种方法被称为MAPPA(Multiagent systems with Per-action Process rewards from AI feedback),它的核心创新在于提供了密集的、针对每个动作的过程奖励,而不是仅仅在任务结束时给出一个简单的成败评价。
研究团队在两个不同的