关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4704人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

10月份,本田飞度就卖出去3辆,你没看错,就是3辆

凡兮说 浏览 4477

对标丰田4Runner 本田新款Passport最新消息曝光

乐选爱车 浏览 4695

五角大楼公布史上最大规模军费预算

澎湃新闻 浏览 1691

墨西哥总统:骚乱平息 瓜达拉哈拉机场遭占领消息不实

都市快报橙柿互动 浏览 39659

羊绒专场|| 如果秋冬只买一件针织衫,我一定毫不犹豫选它(已穿上)

黎贝卡的异想世界 浏览 6728

钟睒睒加码智能化,宗馥莉砍掉机器人公司到底损失有多大?

BT财经 浏览 2530

“借鸡生蛋”玩崩!一家由上市公司背书的平台,卷入10亿风暴

深蓝财经 浏览 4380

千亿豪赌,甲骨文会成“甲骨文”?

每日资本论 浏览 3923

《恋人》要空降?会成下个《许我耀眼》吗?

楚楚号 浏览 3866

全运会男足U20半决赛对阵:广东vs上海,湖北vs山东

懂球帝 浏览 4319

“ASIC巨头”Marvell季度营收创纪录、连续上调指引,CEO称数据中心业务“着火了”

华尔街见闻官方 浏览 745

美媒称中国又抓到美国痛点:一旦断供 美国就得瘫痪

观察者网 浏览 72299

美媒:大批美军机突然飞往欧洲

环球时报国际 浏览 3541

财政部详解财政政策如何“更加积极”

北京商报 浏览 3854

50+女人别穿大妈装!看看这3个“减龄穿搭公式”,显嫩还从容

静儿时尚达人 浏览 3345

官方通报贵州习水食物中毒事件:学生89人住院

界面新闻 浏览 23758

曾经拯救过无数个学生狗的360doc,倒下了。。。

差评XPIN 浏览 3414

ST路通内斗激化!“资本大佬”吴世春“抄底”遭遇绊脚石

野马财经 浏览 4423

2025最狠理财,惊呆百万散户!

米筐投资 浏览 3526

首艘美国船被罚之际 特朗普调2艘航母部署中国周边

现代小青青慕慕 浏览 8131

从港股GPU第一股看壁仞科技的价值新论

互联网那些事 浏览 3654
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1