关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro833人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

张颂文新剧《猎冰》演大毒贩,女主竟是任正非女儿

贵妃爱娱圈 浏览 19704

科曼:对多名球员去沙特踢球感到奇怪,换作是我会继续在欧洲踢

直播吧 浏览 13921

东风日产襄阳工厂启动改造,生产华为赋能的猛士越野车

观察者网 浏览 1377

减肥100斤、海报抄袭、牵连杨紫,贾玲《热辣滚烫》翻车了?

缘木不求娱 浏览 12351

社区团购迎来新对手,大战卷土重来?

Tech星球 浏览 14405

全新一代轩逸实车曝光!颜值飙升,内饰双联屏,动力依旧“佛系”

汽车有文化 浏览 726

《侍神令》亏了6.1亿,沉寂4年,陈坤新片又来了,票房仅3.7万

靠谱电影君 浏览 610

北汽集团10月整车销量160133辆 同比增长11%

网易汽车 浏览 463

李在明:韩美贸易谈判僵持 美不能给韩带来灾难性后果

新京报 浏览 5299

包贝尔打电话给赵丽颖,叫赵丽颖来客串直接拒绝,以前两个人是关系特别好的朋友

趣看热点 浏览 26783

甘肃地震亲历者:亲戚里有老人小孩去世 有人放弃逃跑

潇湘晨报 浏览 73806

媒体:普京坐最新轰炸机上天兜风 狠狠"甩拜登一耳光"

新民周刊 浏览 12152

李云迪风波升级!司晓迪否认嫖娼关系,爆料男方擅长用小号聊女生

萌神木木 浏览 511

李凯尔晒与家人合照:特伦蒂诺的家庭时光 热爱我们的生活

直播吧 浏览 14687

俄沃罗涅日州起火油储基地内两个油罐发生泄漏

环球网资讯 浏览 15219

华为新公司来了!

证券时报 浏览 12341

媒体:王毅会见乌克兰外长 释放三个不寻常的信号

北京日报客户端 浏览 19309

“小米汽车”非官方手绘草图发布 颜值拉满 卖多少合适?

手机中国 浏览 15094

杨德龙:稳增长政策继续加码 资本市场改革不断深化 扭转市场走势

首席经济学家 浏览 10605

俄称在红军城打击被围困的乌军 乌称击退俄军进攻

环球网资讯 浏览 466

英国公司研发出空气钻石,绿色环保的现代炼金术

趣看热点 浏览 25764
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1