关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技1532人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

国家外汇管理局副局长刘斌:研究长期限、多品种、小币种等外汇市场发展问题|2025外滩年会

国际金融报 浏览 1502

雷军跨年直播拆车,15台手机撬动300亿市值?

BT财经 浏览 573

今日热点:主创说《怪奇物语》结局很精彩;李亚鹏说真相比猜想更精彩……

伊周潮流 浏览 1647

军报评何卫东、苗华等被开除党籍军籍:没有"铁帽子王"

北京日报客户端 浏览 7692

高端汽车市场创2亿营收,「悉智科技」拓疆AIDC蓝海 |36氪首发

36氪 浏览 813

估价21万元奔驰车将被1元起拍 系涉刑资产

红星新闻 浏览 7185

港媒:香港武打明星梁小龙离世,享年77岁

界面新闻 浏览 379

这些都是普通人适合的穿搭!多穿卫衣和半身裙,舒适又耐看

静儿时尚达人 浏览 1330

德媒封面:5位欧洲领导人手持武器 配文"唐纳德够了"

每日经济新闻 浏览 20349

2架美军机在南海相继坠毁 原因正在调查中

界面新闻 浏览 1462

郑智化发声道歉!坦言自己情绪上头用词不当

萌神木木 浏览 1454

"胖兵照"浏览量超过3000万 数据显示美军肥胖率超20%

红星新闻 浏览 6628

4月起 光伏产品出口退税归零 千亿产业 谁在窃喜?

中国能源网 浏览 469

B股,最后的金矿?

36氪财经 浏览 325

拉斯帕多里:意大利拥有成功所需的一切;我对加盟马竞很满意

懂球帝 浏览 1087

媒体:高市早苗疯言台湾问题 中方对她没什么好客气的

新民晚报 浏览 5467

弗利克:这是一场艰苦的胜利 我们要捍卫榜首位置

体坛周报 浏览 2146

杨笠突然清空社媒!自曝生病睡眠差,长期遭攻击疑似萌生退意

萌神木木 浏览 1428

AI的“相变”时刻:为什么我们现在的想象力都太贫乏了?

澎湃新闻 浏览 382

AI 正在接管代码,AWS 首席布道师却说:开发者的未来在「沟通」

极客公园 浏览 1538

首款中国超跑,比亚迪仰望 U9 将入驻《GT 赛车 7》

IT之家 浏览 1550
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1