关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技2122人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

刚说淘汰中国激光雷达,最后希望的 Luminar 就破产了?

差评XPIN 浏览 1320

开演唱会!加入新公司!赵露思迈入新篇章

勺哥乡村味道 浏览 1900

不计成本的超跑梦想:Ascari Ecosse的传奇往事

老爷车 浏览 1456

涉中国电动汽车,美交通部长称“加拿大会后悔”,外国网友回怼:该后悔的是美国吧!

海外网 浏览 988

AI带货“躺赚”陷阱重出江湖:缴纳3000元会费,半年却仅卖出13元

蓝鲸新闻 浏览 896

多国欢迎加沙停火协议生效 呼吁尽快结束人道主义危机

上观新闻 浏览 2238

乌军袭击一生产弹道导弹的俄军工厂

每日经济新闻 浏览 296

5-1狂胜仍不敢怠慢!法鹰欧冠逆天赛程:马竞利物浦那不勒斯巴萨

直播吧 浏览 2856

搭载VLA大模型 魏牌全新蓝山智能进阶版年内上市

网易汽车 浏览 1509

90后占比近六成,小鹏X9超级增程成年轻家庭首选

定焦One 浏览 1011

美国想打造联合国替代机构 该机构章程透露关键信息

上观新闻 浏览 5300

业内曝窦骁遭遇豪门杀猪盘,被女方当跳板?

萌神木木 浏览 2104

成都天府国际空港综合保税区通过验收

央视财经 浏览 1084

这个「疯批」星二代,撕碎了娱乐圈的滤镜

独立鱼 浏览 875

35岁男子自称婚内出轨女大学生 妻子还有40多天生产

上观新闻 浏览 7056

美军动用新型武器:山寨伊朗的

观察者网 浏览 117

Artificial Analysis评测新鲜出炉:Kimi K2 thinking位居世界第二,开源第一

AI寒武纪 浏览 1974

红色通缉令下,戈恩从汽车领袖变身管理大师

帮宁工作室 浏览 1350

尹同跃宣告奇瑞AI进入2.0时代,要快速追赶特斯拉FSD

贝壳财经 浏览 958

中国移动成出海“赋能者”,聚星计划覆盖5000+伙伴

雷科技 浏览 2190

霸榜热搜,尺度惊人,他绝对值得你追

Yuki女人故事 浏览 756
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1