关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3300人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

比小说更魔幻!前华人首富,为何被特朗普特赦

说财猫 浏览 3044

成都事故后,雷军最新发声

都市快报橙柿互动 浏览 3058

距离仅10到15米 飞行员驾驶歼-16倒飞驱离外军战机

环球网资讯 浏览 3123

熊园:9月财政有喜有忧,今年预算能完成吗?

首席经济学家论坛 浏览 3130

沃什被提名次日 特朗普:不降息就把他告到裤子都不剩

极目新闻 浏览 8283

笑掉大牙!日票房仅199万,黄晓明的新片,被“小李子”打懵了

温柔娱公子 浏览 2967

尴尬的是最后输了,狄龙回喷骂自己垃圾的热火球迷:看看比分,f**k

懂球帝 浏览 1936

男子去理发结果给店家投40多万 自称不好意思拒绝别人

极目新闻 浏览 8001

聂卫平告别仪式在八宝山举行 "一生的对手"冒雪来送别

新民晚报 浏览 6301

E句话| 儿子发文替闫学晶道歉,说像给灵魂动手术?

仙女事件簿 浏览 1675

媒体:马杜罗大难临头仍相信"不至于" 但美却赶尽杀绝

文汇报 浏览 8044

网传张曼玉加盟《浪姐2026》,工作人员发声回应:不知道此事

扒虾侃娱 浏览 2044

国产车在英国被“警告”了,还是安全问题,但这回我真憋不住笑了

小李车评李建红 浏览 3891

短剧都没有她的故事精彩?62岁活成了多少人羡慕的样子

黎贝卡的异想世界 浏览 1854

船员在公海杀同事6个月后跳海潜逃 中国海警跨境捉拿

扬子晚报 浏览 6242

皇马TV显示,贝林厄姆将在国家德比中担任首发右边锋

懂球帝 浏览 3024

冬季的“松弛感”,怎么穿?

Yuki女人故事 浏览 2756

美方人士:中国明天就能瘫痪美国经济 而美国无能为力

澎湃新闻 浏览 3125

第十届四川省大学生机器人大赛在蓉开幕 全省51所高校614支战队硬核对决

红星新闻 浏览 3100

有望明年初亮相 小米YU9假想图曝光

车质网 浏览 2556

杨天真打不开自己特斯拉从后备箱爬进去 客服回应

极目新闻 浏览 12010
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1