关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1496人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以色列警告埃及不准使用中国导弹 特朗普突然对以下手

博览历史 浏览 32848

“上头”的美股AI热

国际金融报 浏览 11937

色彩凝聚笔尖,描绘双唇明眸之美

时尚COSMO 浏览 1197

别管怎么质疑《寻秦记》,只要古天乐、林峯在,再烂我都会买单

最爱酷影视 浏览 599

蔡卓妍带家人旅游 90岁奶奶拿拐杖蔡爸撞脸林子祥

素素娱乐 浏览 17118

陆家嘴论坛,金融大佬们都讲了什么?

香帅的金融江湖 浏览 16504

伊能静儿子万圣节cos照曝光 穿黑丝透视装姿势妖娆

萌神木木 浏览 13756

C罗荣获2020年金足奖,职业生涯再填新的辉煌

趣看热点 浏览 25903

美联储降息25基点 仍预计明年降息一次

华尔街见闻官方 浏览 682

跑男团到泰国请群演扮粉丝?同一群人举四家灯牌

萌神木木 浏览 17228

推广中奖名单-更新至2025年10月10日推广

黎贝卡的异想世界 浏览 1130

联大反击或剥夺美国重要资格 美恐难再与中同台论道

策略述 浏览 5349

太阳报:美加墨世界杯决赛将在德州AT&T体育场进行,容客量超10万

直播吧 浏览 13702

缅北魏家杀人要求"打光所有子弹":尸骨呈跪姿 头中7弹

上游新闻 浏览 6052

新能源购置税“末班车”,上还是不上?

浙江车网 浏览 1080

中国人寿ESG:天量投诉与高额罚单暴露社会责任短板

网易财经ESG 浏览 17264

“这件羽绒服”今年冬天又火了,怎么搭都时髦保暖!

LinkFashion 浏览 616

俄副外长警告:北约敌对行为可能导致核大国间直接冲突

环球网资讯 浏览 1183

冬天少不了一顶帽子!“贝雷帽”保暖又能凹造型

静儿时尚达人 浏览 13651

韩鹏:很高兴能战胜争冠球队,全体球员的发挥都非常出色

懂球帝 浏览 1241

特斯拉得州锂精炼厂破土动工:可满足每年100万辆汽车所需锂

网易科技报道 浏览 18688
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1