关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3565人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以军空袭加沙 特朗普:哈马斯不守规矩就会被消灭

新京报 浏览 3402

特朗普:目前不打算供乌“战斧”导弹

央视新闻客户端 浏览 3430

新款享界S9将于11月7日正式开启预订

车质网 浏览 2699

原来他就是李湘前夫,如今52岁锒铛入狱

楠楠自语 浏览 2724

吴尊元旦晒全家福!一家四口笑容灿烂温馨幸福

失宠的小野猪 浏览 2579

方盒子"大床房" 福特智趣烈马售22.98万起

网易汽车 浏览 2901

全球首款飞行汽车来了!售价222万元,可以飞177公里

象视汽车 浏览 2691

奇瑞汽车12月销量超23万辆同比减16%,2025全年超263万辆

IT之家 浏览 2611

当年最红的女明星,“孤苦伶仃”?

Yuki女人故事 浏览 2457

英超本赛季平均每场持续100分36秒,但净比赛时间只有54.7%

懂球帝 浏览 3660

萧煌奇妻子正面照曝光:是短发气质美女,双方否认是奉子成婚

素素娱乐 浏览 2527

AI智库“智汇”珠海,助力大湾区学术与产业的“双向奔赴”

南方都市报 浏览 3464

美国3月职位空缺小幅降至687万人,招聘活动出现反弹

华尔街见闻官方 浏览 7

奥沙利文:75三杰各自欣赏会相互问候,希望年轻人能超越我们

懂球帝 浏览 3634

76岁著名演员许绍雄被指病危 多位圈中好友已赶到医院

极目新闻 浏览 9388

2-4遭海牛逆转,国安追平队史中超主场单场丢球纪录

懂球帝 浏览 3425

丹麦议员:我从没想过会站在美国使馆前示威

环球网资讯 浏览 6691

沈建光:从国庆长假看消费前景

首席经济学家论坛 浏览 3406

来搞笑的?超级杯花名册漏洞百出:照片古早且粗糙,译名叠词

懂球帝 浏览 1688

美军高官称希望韩建核潜艇对抗中国 还引了句"蜘蛛侠"

澎湃新闻 浏览 44699

综合续航超1500km 加方盒子车身 智己LS9即将上市!

车品 浏览 3183
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1