关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技2414人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

汪小菲接俩娃回北京过春节!玥儿和奶奶逛公园

地理三体说 浏览 1187

黄宗泽恭喜陈伟霆当爸,怼记者别太八卦

扒虾侃娱 浏览 2365

购置税从“免征”到“减半”,新能源车企将迎来一场考验!

百姓评车 浏览 2534

短剧翻拍《新英雄本色》,刘萧旭主演?

最爱酷影视 浏览 2499

拉加德暗示欧央行不急行动:政策处于有利位置,未预设利率路径,任何选项都应考虑

华尔街见闻官方 浏览 1710

以军再袭约旦河西岸 巴方谴责以“吞并”企图

国际在线 浏览 1825

杜克大学团队重磅发现:AI语音助手为何在复杂思考时"掉线"?

科技行者 浏览 2359

高市早苗4天上3次新闻联播:玩火者必自焚

看看新闻Knews 浏览 44637

全球股市最强风口,彻底拦不住了?

财经锐眼 浏览 1073

梓渝施洛华官宣预热!5天连更藏着什么破局密码

让生活充满温暖 浏览 1289

张纪中爆料不留情面,刘晓庆风流妖精形象受创

精彩背后 浏览 1069

半夏投资创始人李蓓新“战场”:12888元卖课、“下凡”小红书!

独角金融 浏览 1242

闫学晶被多个品牌解约,儿子林傲霏“新疆班”的学历也被调查

素素娱乐 浏览 1365

兰博基尼Murciélago 无可争议的“大佬级”超跑

CLauto酷乐汽车 浏览 1248

“黑色大衣”今年冬天又火了,怎么搭都高级时髦

LinkFashion 浏览 1256

驻韩美军一“死神”无人机失控坠海 9月才被部署在朝鲜半岛

红星新闻 浏览 1928

文联春晚录制现场好真实!大咖太多没人惯着

萌神木木 浏览 1165

北京自闭症男童苍山走失身亡 父亲1周7天扎在单位加班

红星新闻 浏览 7245

杜淳带娃吃冰激凌,穿紫色长袜好抢镜,小蛋饺投喂爸爸幸福满溢

扒虾侃娱 浏览 1302

达成停火18天后战火再起 以总理下令袭击加沙

国际在线 浏览 2266

媒体人:国安从来没说过要解散,也从未想过要自我了断

懂球帝 浏览 2226
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1