关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4460人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子应聘疑遭老板性暗示 涉事企业法人:出于工作需要

极目新闻 浏览 9354

导演文晏遭抵制!东京电影节撕奖不力,被批排挤华人女演员

萌神木木 浏览 3290

斯基拉:国米、那不勒斯已派球探考察比萨中场伊德里萨-图雷

懂球帝 浏览 3689

委内瑞拉外长:伊朗提出"全方位"合作 共同应对美威胁

界面新闻 浏览 3351

守护行人安全 四川省人大代表韩华亮建议:制定管理细则,提高电动车违法成本|代表在这里

封面新闻 浏览 2932

赌王长孙女近况曝光,定居澳门买下2300平海景房,悲惨人生终逆袭

萌神木木 浏览 4117

人民币汇率破7,“6时代”下对我们带来哪些影响?

郭施亮 浏览 3371

汪小菲接俩娃回北京过春节!玥儿和奶奶逛公园

地理三体说 浏览 3036

马力破千匹 宝马纯电M3官方谍照发布

车质网 浏览 3062

盘点未夺大满贯的最强选手,谁是你心中的意难平?

网球之家 浏览 3832

宗馥莉,抛弃娃哈哈?

豹变 浏览 4691

蔚来ES9四月发布!车长近5.4米-比林肯领航员还大

网上车市 浏览 3156

在EasyClaw上,我轻松养出了自己的AI“龙虾”

光子星球 浏览 2225

美国“恢复核试验表态”背后有何考量

环球网资讯 浏览 3991

宝刀不老,34岁加纳老将乔丹-阿尤献7球7助攻率队直通世界杯

懂球帝 浏览 4337

媒体:马杜罗大难临头仍相信"不至于" 但美却赶尽杀绝

文汇报 浏览 9125

加盟米兰至今只替补出场1次,斯基拉:奥多古可能在冬窗离队

懂球帝 浏览 3952

2026春夏八大流行趋势

LinkFashion 浏览 2682

官方:马来西亚裁判组将执法成都客战首尔,纳西鲁丁担任主裁

懂球帝 浏览 4032

首次搭载Hi4-Z架构 全新坦克400上市售24.98万起

网易汽车 浏览 3935

冬天的“外套”别随便买!40+女人锁定这3款,优雅大气还保暖

静儿时尚达人 浏览 3664
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1