关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技16人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

吴宗宪谈黄子佼 称关30年出来后还是一条好汉

素素娱乐 浏览 13821

巴雷特今天35+5+5+5三分+0失误 本赛季仅他和东契奇做到过

直播吧 浏览 11880

委内瑞拉:逮捕一批"掌握美情报机构直接信息"的雇佣兵

红星新闻 浏览 3918

谁最有资格参与中国版的马斯克宏图计划?

虎嗅APP 浏览 15318

美媒披露:国务院要求各使馆保持缄默

环球网资讯 浏览 14797

南亚苍穹上演电子迷雾与心理博弈样本

浏览 4274

游客在阳朔景区被筏工要红包 疑当地半夜致电让删视频

上游新闻 浏览 89892

减肥减不下来 真跟皮质醇有这么大关系吗?

新氧 浏览 16472

诸葛亮死前交代刘禅6个字他却记反!光速败光蜀汉江山

趣看热点 浏览 25507

男子在千万豪宅小区买两车位 不能安装住宅用电充电桩

华龙网 浏览 88029

美国歌手Lauv小牌大耍!区别对待中韩歌迷惹众怒,中国演出还假唱

萌神木木 浏览 10294

百亿补贴战:京东急了,拼多多阿里压力大了,线下实体难了

钛媒体APP 浏览 18476

詹姆斯:本周将接受左脚踝的治疗 可能会缺席接下来与勇士比赛

直播吧 浏览 11679

记者:埃尔内尼是降薪续约,球员本人非常乐意接受这样的新条款

直播吧 浏览 18405

俄军:乌克兰在24小时内损失1240名士兵和39辆坦克

环球时报国际 浏览 89985

极氪赵昱辉:极氪009订单表现超预期,正解决供应链短缺的影响

Tech星球 浏览 18841

25岁何超欣参加活动,穿礼服秀身材,比例夸张背景变形被质疑P图

文艺圈娱乐号 浏览 12280

牛弹琴:中国驻韩大使撂下狠话 韩国人坐不住了

北京日报客户端 浏览 87838

时隔十年上证指数重返3900点 四季度A股“开门红”

商业观察杂志社 浏览 373

北控惜败吉林时隔19天吞连败 费尔德缺席6战4败邹雨宸15分

醉卧浮生 浏览 12234

杨洋王楚然曝恋情,前任乔欣王子奇纷纷疑似倒油

萌神木木 浏览 17930
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1