关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技127人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

古特雷斯:联合国将全力支持加沙停火协议

环球网资讯 浏览 448

美英空袭胡塞武装 专家:此番行动主要以震慑为主

新民晚报 浏览 12195

全市场:那不勒斯为埃尔莫索开350万欧年薪,球员想要500万欧

直播吧 浏览 9942

北约秘书长呼吁解除乌用西方武器打击俄本土限制

环球网资讯 浏览 10384

零跑D19定档10月16日,旗舰SUV全球首秀

网易汽车 浏览 970

中国基站现身阿布扎比 可远程遥控远在珠海的无人艇

枢密院十号 浏览 91784

谁最有资格参与中国版的马斯克宏图计划?

虎嗅APP 浏览 15374

杜兰特错失绝杀,奇才以1分优势险胜篮网

趣看热点 浏览 25422

马筱梅吐槽老公,称嫁到大陆鲜花都是粉丝送的,汪小菲只送过一次

扒虾侃娱 浏览 838

金世佳夫妇带孩子外出玩耍,38岁妻子酷似马伊琍

叶公子 浏览 12812

全明星正赛东部大胜西部:唐斯50分利拉德39+6首夺MVP 引名嘴吐槽

厝边人侃体育 浏览 11988

9月第二周周销量:方程豹/乐道进入新势力前十,岚图超越极氪或很快出现

驾仕派 浏览 1023

原来他们是爷俩,冷漠父子藏实力!低调逆袭

章眽八卦 浏览 378

平地惊雷!詹姆斯罚球线起步滑翔单臂隔扣乔治2+1

直播吧 浏览 11888

新ES8杀到30万元内!押注纯电大三排SUV市场,李斌:不用担心蔚来不赚钱

时代周报 浏览 966

亚洲电影节红毯,脸肿、笑容诡异,48岁蒋勤勤打了内娱女星的脸

娱乐圈笔娱君 浏览 11409

五角大楼:所有F-35战斗机应当在90天内接受翻新

环球时报新闻 浏览 18818

富力老板深陷“行贿案”!富二代却逃过一劫

金融八卦女 浏览 15374

泰国止步16强!魔咒延续52年,被新帅激活,5个月后将战国足

奥拜尔 浏览 12052

莱昂纳多被曝以每天600万美金参加萝莉岛盛宴,有57任女友太风流

缘木不求娱 浏览 12702

整整30部超级大片,2024年要爽炸

独立鱼 浏览 12410
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1