关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3295人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

户外消费掀新潮,运动产业迎来“功能+时尚”双升级格局

中国商报 浏览 2002

阿里千问开源四款Qwen3.5小尺寸模型

IT之家 浏览 1204

特朗普:以色列须立即停止轰炸加沙

央视新闻客户端 浏览 3130

委内瑞拉内政部长称美国袭击造成100人死亡

新京报 浏览 1660

NBA战报:凯尔特人115-101公牛取NBA4连胜,安芬尼-西蒙斯27+3+3

懂球帝 浏览 2049

媒体:特朗普会晤前后与普京通话 不知乌总统是否满意

新民晚报 浏览 23413

湾区晚会名场面:小沈阳和女儿同框,肖战台下合照,歌手真唱翻车

萌神木木 浏览 3050

美财长挑拨中阿关系称"米莱要将中国赶走" 阿根廷回应

澎湃新闻 浏览 7090

美联储报告:政策不确定性成头号金融稳定风险,央行独立性首次被点名,关注金融杠杆

华尔街见闻官方 浏览 2834

中国人民大学的研究突破:让AI思考过程更快更省的神奇方法

科技行者 浏览 1726

李云迪风波升级!司晓迪否认嫖娼关系,爆料男方擅长用小号聊女生

萌神木木 浏览 2912

黄仁勋放豪言:到2027年Blackwell和Rubin芯片至少创收1万亿美元

华尔街见闻官方 浏览 922

代码无需审核、数据随便喂,AI 正在催生下一场企业级灾难

IT之家 浏览 2940

推广|| 双11来了!好口碑国货返场,买1送20

黎贝卡的异想世界 浏览 3255

研究领军人物告别一线!广发证券全球首席沈明高到龄卸任

券商中国 浏览 1712

4399元 一图读懂OPPO Find X9 刘作虎:严重超标的标准版

快科技 浏览 3096

为什么骑手的保障,“普惠”更重要?

财经无忌 浏览 2983

山西6人上双大胜送福建3连败 邹阳18分新科状元11+9

醉卧浮生 浏览 1956

福建女商人林惠荣提国赔申请获立案 曾服刑7年获无罪

澎湃新闻 浏览 6481

亚马尔和网红参加节目时说皇马偷窃还抱怨,皮克表示同意

懂球帝 浏览 3046

全新比亚迪SHARK6亮相 1000km综合续航+L2级智驾

华庭讲美食 浏览 2736
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1