![]()
这项由北京大学多媒体信息处理国家重点实验室的钱泽中、李雨明团队,联合香港科技大学的迟晓为、韩思瑞,新加坡国立大学的王世尊,以及北京人形机器人创新中心的秦志远、巨晓洲等研究人员共同完成的突破性研究,于2025年10月发表在arXiv预印本平台(论文编号:arXiv:2510.07313v1)。这项名为"WristWorld"的技术首次实现了让机器人通过外部摄像头的画面,自动生成手腕视角的操作画面,就像给机器人装上了"想象力",让它能从第三人称视角推测出第一人称的精确操作画面。
说起机器人学习操作技能,就好比教一个人学做菜。传统方法就像只让这个人站在厨房门口看别人做菜,虽然能看到大致流程,但很难掌握握刀、翻炒等精细动作的要领。而如果能让学习者直接从厨师的视角观看——也就是"第一人称视角",那学习效果就会大大提升。问题在于,要获得大量的第一人称视角录像非常困难和昂贵,就像要给每个厨师都装上头戴摄像设备一样麻烦。
这正是当前机器人学习面临的核心挑战。现有的大型机器人数据库虽然包含了数万小时的操作录像,但绝大部分都是从旁观者角度拍摄的第三人称视角,真正从机器人"手腕"角度拍摄的第一人称视角录像少之又少。这种数据不平衡就