关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3298人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

科技氛围浓郁 全新奥迪Q5L内饰正式公布

车质网 浏览 2532

明年下线 特斯拉Cybercab不会提供方向盘

车质网 浏览 2849

Here we go!罗马诺:安德莱赫特边锋尼尔松-安古洛加盟桑德兰

懂球帝 浏览 1777

兰博基尼Murciélago 无可争议的“大佬级”超跑

CLauto酷乐汽车 浏览 1920

2025年首例被北交所暂缓审议的企业出炉 永大股份上市缘何待考?

叩叩财讯 浏览 2670

八部门:加快脑机接口等新型终端的产业化、商业化进程

澎湃新闻 浏览 2111

E句话| 她也遇到过阴阳剧本?

仙女事件簿 浏览 2809

南加大团队揭秘:让AI做数学题更聪明的"长度感知"训练法

科技行者 浏览 2944

今年秋天最流行的6条半裙,怎么搭都好看!

LinkFashion 浏览 3810

17岁少年网购虚假退货"薅羊毛"获利超400万 被判刑6年

北青网-北京青年报 浏览 5525

郭磊:如何认识最新的出口数据和出口形势

首席经济学家论坛 浏览 3163

《双轨》空降逻辑混乱,赛车泰拳伪骨科叠加,虞书欣演技难撑人设

不八卦会死星人 浏览 2375

香港火灾已致超40人遇难 3名工程负责人涉"误杀"被捕

界面新闻 浏览 27928

郑智化发声道歉!坦言自己情绪上头用词不当

萌神木木 浏览 2892

6.4万star的开源智能体框架重构!OpenHands重大升级,叫板OpenAI

机器之心Pro 浏览 2720

张艺兴单依纯都在跳,“技能五子棋”是什么?

黔乡小姊妹 浏览 3315

上海药物所突破:AI滤波器精准筛选神经系统疾病新药

科技行者 浏览 1793

5人违规穿越鳌太线3人遇难:为规避罚款手机调飞行模式

极目新闻 浏览 6892

苹果M5芯片,击败高通新旗舰

半导体行业观察 浏览 3217

山西宣布废除烟花爆竹"禁放令" 网友:年味回来了

每日经济新闻 浏览 13463

以总理办公室:已确定加沙“和平委员会”总干事人选

国际在线 浏览 2127
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1