关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4470人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

妻子家中枉死丈夫被疑雇凶杀人 27年后真凶浮出水面

环球网资讯 浏览 9512

住户睡觉没拔充电器家被烧 一两分钟火苗蹿到天花板

极目新闻 浏览 9650

迈向新时代 上汽大众朗逸新老款车型对比

车质网 浏览 3500

高市早苗自嘲:有人说我是当不上首相的可怜女人

澎湃新闻 浏览 7611

国企6382.5万买沥青变"水和空气" 沥青是否存在过成谜

上游新闻 浏览 9245

冬季穿搭要避开臃肿感!配色不老气、穿衣不随意,越看越高级

静儿时尚达人 浏览 2348

多地紧急叫停"刨猪宴"活动 地方政府被指陷入两难困境

中国新闻周刊 浏览 12686

男子犯病救命药滞留酒店前台5个小时后死亡 酒店回应

封面新闻 浏览 16452

内娱太上皇,破产了?

独立鱼 浏览 915

上海业主十一出游后推开家门懵了 精装房成"化粪池"

环球网资讯 浏览 4194

纵贯一整年的精彩:柏林电影节佳作在中国

幕味儿 浏览 3394

推动新场景大规模应用要打通哪些堵点?专访工信部赛迪研究院胡国栋丨聚焦国常会

封面新闻 浏览 3932

鸣鸣很忙明天上市:获腾讯淡马锡等2亿美元融资 市值将超800亿

雷递 浏览 2986

俄称控制一城镇 乌称击退多次进攻

环球网资讯 浏览 3090

62岁何赛飞的“真实”,让多少明星“无地自容”

可乐谈情感 浏览 4164

中方要求菲方:4日内向中方说明原因

极目新闻 浏览 24152

E句话| 王星与女友合体,复盘在缅甸遭遇?

仙女事件簿 浏览 2636

特朗普宣布延长对伊朗停火

CCTV国际时讯 浏览 1336

伊姐十一热推:电影《江南:在爱开始的地方等你》;电视剧《围猎》......

伊周潮流 浏览 3549

疑一则广告惹祸 特朗普宣布终止与加拿大所有贸易谈判

财联社 浏览 10052

湾区晚会近百万明星亮相!造型一个比一个认真,单依纯高定抢镜

萌神木木 浏览 3920
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1