关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro839人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

梅州1-4云南,佩德罗-恩里克双响,迪力穆拉提任意球建功

懂球帝 浏览 590

吴尊友:从世卫数据看 全球新冠大流行已经趋于结束

新京报 浏览 123156

德国财长访问中国备受关注 德媒:此行意义重大

环球时报国际 浏览 42240

业主私挖300平地下室:白天用挖机挖 半夜偷偷运土

扬子晚报 浏览 4404

此皇帝曾做过俘虏,还惨杀忠臣,却因一件事,留下了千古美名

趣看热点 浏览 25430

官宣!辽宁连签三四队主帅,吴庆龙成金字招牌,刘子庆在干实事!

篮球资讯达人 浏览 15309

科索沃北部再爆冲突!武契奇将会见西方国家代表

参考消息 浏览 16107

创业者要做到“四个不要”

创业家 浏览 522

时尚芭莎删除那艺娜物料,网友称其被“退货”

韩小娱 浏览 642

标配激光雷达 新款领克07EM-P限时13.98万起

网易汽车 浏览 1187

入春之后怎么穿?来看看搭配灵感解析值得借鉴,既时尚又增高

静儿时尚达人 浏览 12303

济南新增1例境外输入病例,21日曾乘坐G882次高铁

趣看热点 浏览 139991

要害单位夫妻成英方间谍 曾有人为英国偷17份国家秘密

极目新闻 浏览 67410

演员狗狗“大黄”领奖,主人称其是“专业演员”

韩小娱 浏览 420

星途七年七换帅,高管动荡魔咒如何破?

电动势 浏览 780

佐拉:现代足球强调进攻且战术刻板,我和巴乔这样的10号已不存在

直播吧 浏览 13848

森林狼询价莫兰特但控卫位置还有高人 哈登辅佐华子?

仰卧撑FTUer 浏览 10

媒体:国产"双尾蝎"编队试飞视频首公开 三点值得关注

枢密院十号 浏览 90834

清华大学推出RLinf-VLA:让机器人在虚拟世界中自学成才的新框架

科技行者 浏览 356

雷克萨斯全新轿跑车曝光!V6引擎搭配后驱

网上车市 浏览 12428

美团4亿港元首次回购,能否保住股价不“破发”?

第一财经资讯 浏览 12512
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1