关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4472人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2026款宋Pro DM-i上市 限时超级优享价9.98万元起

只懂车 浏览 3236

全球最大、国内首制万吨级纯电动智能海船“宁远电鲲”号开启海试

IT之家 浏览 2917

复旦大学:人工智能在太空中的大考验——能否胜任星际调度师?

科技行者 浏览 2932

工业与人形机器人蓬勃发展 稀土需求有望迎来几何级增长

金证研 浏览 4340

亚马尔和网红参加节目时说皇马偷窃还抱怨,皮克表示同意

懂球帝 浏览 4181

银价已见顶

路财主 浏览 2929

商竣程击败阿古特排名重返TOP300,袁悦输球后笑容被指输也是赢

网球之家 浏览 3098

乌克兰将在德国和丹麦设立武器出口办事处

上观新闻 浏览 3847

特斯拉智能辅助驾驶里程已超100亿公里

大象新闻 浏览 3763

纯电续航可达700km AMG GLC 53 EQ谍照曝光

车质网 浏览 3245

拉莫斯:虽然浙江队实力很强,但我们最近的火力也很强盛

懂球帝 浏览 4039

18平米校园苗圃起步!大学生创业团队,带着AI制造闯港股|港E声

时代周报 浏览 3092

华为路由 12 月升级 HarmonyOS 6 系统,支持 AI 绿色上网 2.0

IT之家 浏览 4108

玩换电,推增程,埃安到底要干什么

汽车公社 浏览 3810

“万元定价”已成新趋势?人形机器人也打起了价格战

澎湃新闻 浏览 4190

推广|| 被刘亦菲、辛芷蕾种草的宝藏单品,确实很好搭!

黎贝卡的异想世界 浏览 3986

马科斯的表弟涉丑闻辞职后 菲国内再次爆发抗议活动

环球网资讯 浏览 27352

50+女人的穿搭封神技巧来了,抓准这4点,轻松穿出简约高级感

静儿时尚达人 浏览 3158

穿来穿去还是羽绒服最靠谱!配裤子裙子都合适,舒适自然保暖

静儿时尚达人 浏览 3362

芯片圈“大佬”IPO梦碎,牵出千万受贿案!

野马财经 浏览 4216

华为诺亚实验室突破:轻量化技术提升AI规划效率

科技行者 浏览 2933
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1