关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro35人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

外媒:泽连斯基解除五名乌克兰国家安全局官员职务

海外网 浏览 18383

超适合圆脸少女的4款夏日扎发 清爽减龄100分

In风尚 浏览 13984

刚刚,“海澜之家号”升空!

江南晚报 浏览 35

陈梦圆满“复仇”!携王曼昱晋级女双半决赛,静待阵钱天一陈幸同

乒谈 浏览 11925

23岁女教师工作3个月轻生 校方否认不让家属看监控

红星新闻 浏览 79965

Adriana 颜值回春,重回十八岁!

下水道男孩 浏览 12480

549分241板182助!约基奇三数据均为联盟第一:又要成历史首人?

罗说NBA 浏览 15745

绝美!春夏穿戴甲选购指南来啦

春菇凉时尚穿搭记 浏览 19857

肖战晒手绘画悼念外公 配文“想念”引人泪目

网易娱乐 浏览 25141

跟着博主这样穿 天天美得不重样

巧百搭 浏览 18033

侮辱诽谤格力高管 自媒体多人被拘留或处罚

财联社 浏览 11434

俄国防部:乌军大规模进攻又被击退 北约坦克被摧毁

环球网资讯 浏览 15731

普京:国家想发展 每家至少生三个孩子

红星新闻 浏览 78503

说你点啥好呢?维金斯替补23分钟 8中2仅拿5分&正负值低至-29

直播吧 浏览 11800

多视角直击战车驾驶训练

环球网资讯 浏览 18252

应对“中俄挑战”美国海军酝酿结构大调整

环球网资讯 浏览 12097

2024年第一颗大雷爆了?富人收割机,终于割不动了

象视汽车 浏览 11812

乔欣的综艺穿搭,想夸一句“好会穿”

瑞丽网 浏览 18300

为了对付这国,日韩要搁置“雷达照射”争议

参考消息 浏览 16028

曝绿凯将续约布朗!美记直言布朗>比尔:联盟22号球星绝配2.9亿

颜小白的篮球梦 浏览 15346

电影《悬崖之上》票房破7亿,却让人高兴不起来

趣看热点 浏览 26402
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1