关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4672人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

男子快递从甘肃寄到成都:直飞660公里却绕了2800公里

每日经济新闻 浏览 35633

一栗nutco,开拓“00后”市场

商业观察家 浏览 2915

夏天日常穿衣很简单!多用基础款、多穿收腰裙,显瘦又舒适

静儿时尚达人 浏览 6867

美股芯片股全线大跌,希捷科技盘后猛涨17%,国际油价涨超3%

21世纪经济报道 浏览 1464

连刷6集,这部新剧太刺激了

来看美剧 浏览 2863

俄总统助理:俄方移交1003具乌军士兵遗体

新华社 浏览 3922

金莎穿娃娃领白衬衣领证,衬衫很宽松显肚子

秋姐居 浏览 2026

U23亚洲杯8强出炉 1/4决赛对阵:国足第2出线战上届亚军 避开日韩

我爱英超 浏览 3630

“复古甜心”穿搭突然大火!春天穿时髦又减龄

LinkFashion 浏览 2804

从口袋PC到智能座舱:华为新品矩阵亮相2025中国移动全球合作伙伴大会 解码智慧生活

快科技 浏览 4568

宗庆后母亲去世,娃哈哈百亿遗产案仍悬

蓝鲨消费 浏览 3425

燃油/插混/纯电都有 五菱星光730将于10月15日预售

网易汽车 浏览 4738

瑞典官宣解雇49岁主帅 4轮仅1分+无缘直通世界杯 用废英超2亿双星

我爱英超 浏览 4680

袁悦苦战182分钟惨胜后遭调侃打球兼项马拉松,吴易昺疑似又伤了

网球之家 浏览 3632

宗馥莉辞职当天旗下公司宣布将使用"娃小宗" 原因披露

红星资本局 浏览 4557

AI成核心方向 银行启动博士后招聘

北京商报 浏览 4201

蔡英文近期动作频频 王鸿薇:她觉得赖清德"不行了"

海峡导报社 浏览 12058

夏天最舒服的状态?张康乐带你一键解锁!

时尚COSMO 浏览 126

奥迪A6L e-tron四驱版公布 双电机爆发405 kW

网易汽车 浏览 4688

国电高科新专利可提高卫星设备的工作可靠性

财闻 浏览 2508

因长期欺凌员工 美富豪CEO遭多名员工合谋绑架杀害

潇湘晨报 浏览 10480
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1