关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4707人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

高市内阁名单出炉 身材火辣的日本知名写真女星入选

红星新闻 浏览 10561

印度阵风又被击落,为啥法国战机如此不堪?

浏览 8440

记者:罗马与格林伍德达成协议,球员本人也同意加盟罗马

懂球帝 浏览 178

异构系统实现大模型推理加速与成本优化能力提升

科技行者 浏览 1947

市场监管总局发文禁止亏本卖车!比亚迪北汽响应

明镜pro 浏览 3978

3年剑指10万店,小咖咖啡将拿出6亿资金赋能门店增长

斑马消费 浏览 732

加沙局势不会立即全面升级 “20点计划”可能烂尾

上观新闻 浏览 4517

头灯焕新设计 新款宾利飞驰测试谍照曝光

车质网 浏览 1461

何小鹏“扒皮”验真身 国产人形机器人“摊牌了”

汽势传媒 浏览 4370

周年庆专场|| 我的洗漱台上,真的不能没有它

黎贝卡的异想世界 浏览 4694

韩媒:韩国女足抗议足协只让男足坐商务舱,情况严重可能罢赛

懂球帝 浏览 4675

女子把100克黄金当垃圾扔了急哭 查监控发现被人捡走

黄河新闻网吕梁频道 浏览 9953

媒体:泽连斯基离间 声称俄罗斯正向中方放弃部分主权

澎湃新闻 浏览 21191

知名汽车智驾企业“停工放假”

电动知家 浏览 3999

智元新增人形机器人生产订单超万台,具身本体路线还能卷多久? | 独家

钛媒体APP 浏览 1589

鏖战3小时,40岁老将瓦林卡追平纳达尔职业生涯一大纪录!

网球之家 浏览 3736

特朗普签行政令征收25%新关税 加密货币超24万人爆仓

每日经济新闻 浏览 9739

央视披露:"哪吒"造车3年亏183亿 多地国资投资难追回

新京报政事儿 浏览 33993

埃里克:对上赛季4-3赢皇马印象最深;弗里克总会激励球队

懂球帝 浏览 3558

夸克上线千问助手,使用阿里Qwen最强大模型

IT之家 浏览 4276

155亿债务压垮豪门?继母长子内斗两年,双双出局!72岁“中国民营船王”拟入主杉杉股份

经理人杂志 浏览 4847
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1