关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro5716人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

车长超5米比亚迪海狮08/海豹08配高阶智驾

网易汽车浏览 4470

赵丽颖好事将近？闺蜜给她的生日祝福好微妙，被怀疑恋情有新进展

萌神木木浏览 5339

现场视频：解放军无人机视角看台北101大厦

央视新闻浏览 3345

精彩推荐

踹开争议男友，她成了最大赢家？

八卦三缺一浏览 4351

伊朗船只逼近美航母美连开数炮全打空

每日经济新闻浏览 3353

加沙停火协议生效后的48小时：人质将释放、民众返乡

澎湃新闻浏览 5517

《镖人》直接让陈丽君补拍而非换脸，投资达7亿

芊手若浏览 4334

夏天的白裙，可以像赫本那样穿

Yuki女人故事浏览 2306

盘点史上无冠但进年终男选手，穆塞蒂并不孤单！

网球之家浏览 5052

“弯刀裤”今年秋冬爆火，怎么搭都时髦！

LinkFashion 浏览 4474

沈腾携好友强势回归《飞驰人生3》成春节档首选

石坝村村长浏览 4163

限时17.79万起！smart精灵6号上市，奔驰设计+吉利技术

此地无垠浏览 1285

基米希被法比安鲁伊斯爆头，裁判未做表示，VAR未介入

懂球帝浏览 5167

于和伟点评余皑磊的表现，只字不提演技二字，却真知灼见

娱乐圈笔娱君浏览 5476

许传智被查：在中纪委工作超30年曾任宁夏纪委书记

界面新闻浏览 10251

名记：威少对去海外打球的兴趣为零，他专注于在NBA打球

懂球帝浏览 5507

杭州有人家三天“闯”进3条眼镜蛇蛇身约小孩手腕粗

钱江晚报浏览 22274

媒体：泽连斯基妥协刚冻结俄资产的欧洲＂惊觉一场空＂

上观新闻浏览 21487

上海AI实验室重新定义视频理解：让AI像侦探一样思考长视频

科技行者浏览 5435

马斯克谈AI未来：五年后手机和APP将消失，人类文明在模拟世界的存亡

深蓝财经浏览 5209

“恨海情天仙品CP”郭晓婷王天辰将合体拍杂志

手工制作阿歼浏览 3754

4年时间门店从0增至960家，全国开店的零食品牌，如今陷入闭店争议！官方回应：主动放缓是策略，不是叫停加盟

每日经济新闻浏览 4632

小鹏汇天以保密形式提交港股IPO申请

财视传播浏览 4434

不务正业? 理想汽车发布AI眼镜长续航还能控车

网易汽车浏览 4642

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1