关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2276人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

月销破2万辆 极狐年销翻番在望 摸到准一线门槛

乐逗汽车 浏览 1719

全运男足U20:浙江、新疆成绩完全相同,需抽签决定晋级球队

懂球帝 浏览 1781

这些年轻科学家不再满足于“追赶美国”

知识分子 浏览 2543

财经早餐:英伟达50亿美元收购英特尔股份;美股三大指数齐创历史新高

网易财经 浏览 2865

坦克400预售:新增激光雷达,支持高阶辅助驾驶

IT之家 浏览 2152

272马力四驱 全新一汽奥迪Q5L高功率实车曝光

网易汽车 浏览 2137

《小城大事》大结局:李秋萍和杜涛的缘,在月海续写上且圆满

肆季娱乐 浏览 898

大国放大招,交割日要注意了

大猫财经Pro 浏览 981

极氪右转:为何回归一个吉利?

天天汽车 浏览 1922

美教授说大实话:特朗普对委动手背后 石油优先于民主

澎湃新闻 浏览 8443

美海军罕见宣布:解除一弹道导弹核潜艇指挥官职务

环球时报国际 浏览 2182

别小看这几小事,坚持到过年那状态得有多好啊?

黎贝卡的异想世界 浏览 878

小米汽车订单回收价跌至2000元 两月前曾溢价2万

鲁中晨报 浏览 5853

王心凌吴克群被偶遇,曾多次合体同游逛街,被扒出多个同款饰品

扒虾侃娱 浏览 1598

兹维列夫脚踝受伤遭横扫,严重肿胀紧急求医,总决赛征程蒙上阴影

网球之家 浏览 1901

是否以入选英格兰队为目标?勒温:努力训练,顺其自然

懂球帝 浏览 1301

可磁吸绝配iPhone!长江存储致态灵潮流版移动SSD 2TB图赏

快科技 浏览 1334

印度尼帕病毒拉响警报,尚无疫苗和有效疗法,检测试剂盒受关注,多家上市公司回应

红星资本局 浏览 781

贡多齐:尤文目前的状态并不理想,我们有足够的实力击败他们

懂球帝 浏览 1987

以军攻势升级 加沙两天内超4万人流离失所

澎湃新闻 浏览 2858

38岁尹正再破天花板,这一次,他让整个娱乐圈“沉默”了

温柔娱公子 浏览 1380
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1