关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技1491人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

世界最胖男孩减重200斤,是什么让他重新回归正常的生活?

趣看热点 浏览 153714

克宫:卢卡申科与普里戈任有20年交情 自愿当调停人

环球网资讯 浏览 16143

中国海警:菲方侵闯中国领海 故意冲撞中国海警船

央视新闻客户端 浏览 2359

摩纳哥1-0斯特拉斯堡,本-萨吉尔一击制胜,南野拓实染黄

懂球帝 浏览 12489

浙媒:体育局负责人介绍,浙江FC改名一事并未提上日程

懂球帝 浏览 313

德国政府:鉴于推特发生种种变化,正考虑“新的沟通渠道”

界面新闻 浏览 15706

快递价格战再现苗头,圆通速递准备好了吗?

创作者_1374543933241 浏览 15385

“China Shopping”热展现中国制造全球吸引力

环球网资讯 浏览 1724

众星为高考学子加油打气 周冬雨被曝高考仅286分

传媒一班 浏览 17306

阿莫林将执教曼联3年!卡拉格开炮:没人相信拉爵,这么说太过火

奥拜尔 浏览 1588

2024上半年“上桌咖”观察:小生古偶内卷,小花自行设席

仙女事件簿 浏览 11305

玩换电,推增程,埃安到底要干什么

汽车公社 浏览 1228

有望明年初亮相 小米YU9假想图曝光

车质网 浏览 1279

宋代变法名臣王安石为何会一直刁难苏轼?

趣看热点 浏览 26996

2025 年最强太阳耀斑爆发,引发非洲和欧洲多地无线电中断

IT之家 浏览 1230

插混市场卷向2000km+,是真技术还是伪命题

帮宁工作室 浏览 11824

2026年新年首个工作日 中纪委连打4“虎”

南方都市报 浏览 7790

号称追星不用背相机:OPPO官宣哈苏专业影像套装,含增距镜、手柄

IT之家 浏览 1666

刘亦菲早年 告白遭考古,老己竟是全网粉丝?

山野卢员外 浏览 827

杜特尔特警告菲战争风险:原因是美国在菲拥有基地

环球网资讯 浏览 16292

古巨基官宣二胎!妻子57岁高龄产子挑战生育极限,网友质疑代孕

萌神木木 浏览 596
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1