关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro5826人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

埃安 UT super 国民好车下线，广汽、京东、宁德时代联合打造

IT之家浏览 5247

迈凯伦SUV要来了，搭V8混动

懂车之道浏览 4583

德媒：德总理拟动用俄央行在德冻结资产援乌

新华社浏览 4835

精彩推荐

当女将军成为内娱偶像剧时尚单品，我们更怀念穆桂英

时尚COSMO 浏览 8154

中方代表当场质问日方：你们从来没有真正地认罪悔过

环球网资讯浏览 14148

AI快速生成抗体设计图，大卫·贝克最新研究或改变传染病应对模式

DeepTech深科技浏览 5304

“耳环风波”半年后 18岁黄杨钿甜首次发文

现代快报浏览 9605

2025 FT年度人物：黄仁勋

新智元浏览 4869

李湘王岳伦合体露面被偶遇，离婚后仍相处融洽，两人身材很富态

扒虾侃娱浏览 5298

3000亿美元伊朗重建基金落实一半特朗普：美国不出钱

每日经济新闻浏览 171757

文晏回应争奖！直言不认识白百何否认沪圈投资，白百何再次内涵

萌神木木浏览 5419

跨年晚会主持人状态曝光！靳梦佳被质疑整容

萌神木木浏览 4728

美媒：美国曾以为贸易战能改变中国经济但它错了

环球时报国际浏览 16446

俄大使披露：美军控制马杜罗时没打算让任何人活下来

扬子晚报浏览 8948

连赢王曼昱+陈熠 42岁华裔掀翻世界第2+结束5连败球迷：想念莎莎

风过乡浏览 4542

董卿母子现身看电影，13岁儿子身高超160

娱乐圈圈圆浏览 4121

成毅效仿赵露思操作致欢瑞股价暴跌损失惨重

小兔子的快乐浏览 4506

联盟各队在恐慌雷霆战绩第一还手握快船2026年首轮签

仰卧撑FTUer 浏览 5093

两名国民党民代遭起诉郑丽文：民进党想团灭在野党

海峡导报社浏览 16157

高市政府迟迟不道歉还发出战争威胁中方8个字宣告结局

时时有聊浏览 10851

金球奖撒糖、霉霉破纪录与“鲍小强”翻车

粉红冻奶的观影日记浏览 4608

伊能静儿子逛成都，恩利吃美食被辣出表情包

疯说时尚浏览 5472

内维尔：现在每次看切尔西比赛，都感觉他们输定了

懂球帝浏览 2729

央视主持人海霞因争议遭除名，引发主持界讨论

史鹷的生活科普浏览 4381

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1