关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3299人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

【英超】枪手迎蓝月,大中锋对决,瓜塔师徒再较高下

体坛周报 浏览 3219

中国人工智能50强,寒武纪、摩尔线程、沐曦股份位列前三

红星资本局 浏览 2008

鲁媒谈准入:新赛季会带给更多球队机遇,想获红利需守住阵地

懂球帝 浏览 2374

红旗E-QM5换电版车型正式上市 售8.98万元

车质网 浏览 2721

刘涛女儿近照曝光,这才是“顶级富养”的典范!

动物奇奇怪怪 浏览 3164

清华大学等联手打造智能分析系统,让卫星图像自动识别准确率飙升

科技行者 浏览 2096

业主私挖300平地下室 同楼住户:家里没一面墙是完整的

新民周刊 浏览 8175

中国汽车出海,插混和增程将是巨大的“机会点”

汽车公社 浏览 2129

消息称三星Galaxy S27 Ultra将搭载更安全的Polar ID面部识别技术

IT之家 浏览 1782

详解“和平意志-2026”演习各国参演舰艇阵容

环球网资讯 浏览 2045

10月第一周豪华SUV销量榜 奥迪Q5L第2/宝马X3第5

小李子体育 浏览 2795

翁虹女儿18岁成人及笄礼惊艳全网

艳姐的搞笑视频 浏览 3079

为何林心如被誉为国内演艺界无可挑剔的典范?

小椰的奶奶 浏览 2568

邱淑贞女儿沈月回应,称这辈子都没买过热搜,很欣赏张凌赫与沈月

扒虾侃娱 浏览 2806

从50天4场到21天0场!34岁张水华被处分后静悄悄 为工作牺牲爱好

风过乡 浏览 2278

保姆机器人来做饭!全国人大代表、海尔集团董事局主席周云杰:机器人会成为新的家电

时代周报 浏览 1155

主播让弗洛伦齐向拉齐奥打招呼,弗洛伦齐:永远不会

懂球帝 浏览 3066

徐冬冬尹子维婚礼延期!不是感情生变而是变故

一盅情怀 浏览 1929

寻找AI无法替代的最后一公里丨去现场 做原创

封面新闻 浏览 2744

今年最好的大银幕电影,没有之一

电影最TOP 浏览 2407

深度解读“碱基编辑技术”:首个定制基因编辑疗法案例获成功

DeepTech深科技 浏览 1907
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1