![]()
这项由西湖大学牵头、联合浙江大学、华东理工大学、华为等多家机构共同完成的研究发表于2026年,论文编号为arXiv:2603.25406v2。该研究提出了一个名为MMaDA-VLA的创新机器人控制系统,首次在机器人领域实现了"一边预测未来、一边决策行动"的能力,在LIBERO和CALVIN等权威机器人测试平台上取得了突破性成果。
机器人技术发展到今天,我们已经能让机器人听懂人类语言,看懂视觉图像,但要让它们真正像人类一样智能地完成复杂任务,还面临着巨大挑战。当你让机器人"抓起蓝色积木放到红色盒子里"时,现有的机器人往往像个近视眼一样,只能看到眼前的画面,然后机械地执行一系列预设动作,完全不知道自己的行为会产生什么后果。
更麻烦的是,现有机器人系统就像一个设计糟糕的工厂流水线——需要多个独立的"车间"来处理不同任务:一个车间负责理解语言指令,另一个车间负责分析视觉图像,第三个车间负责规划动作。这些车间之间缺乏有效沟通,信息在传递过程中不断丢失,导致机器人动作僵硬、错误累积,在执行长期任务时经常"前功尽弃"。
西湖大学的研究团队决定彻底改变这种状况。他们开发的MM