关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技916人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

许嵩冯禧被曝分手,女方连夜删与许嵩同款,原因疑和张靓颖有关!

缘木不求娱 浏览 12509

俄称在多个方向推进 乌称多地遭空袭

极目新闻 浏览 930

猫头鹰联手Prusa推出经典棕色、米色3D打印PLA耗材

IT之家 浏览 195

官媒揭开70岁潘虹的真实现状,董卿说的一点没错

手工制作阿歼 浏览 777

勇士124-106轻取鹈鹕,库里11中2仅9分,穆迪8记三分

懂球帝 浏览 591

理查利森:穿上皇马球衣是所有球员的梦想 我要证明热刺为何签我

直播吧 浏览 16435

利物浦老板亨利:一直希望为俱乐部带来成功 英超是世界最佳联赛

直播吧 浏览 19398

土耳其下令拘捕内塔尼亚胡 以色列外长公开回应

新京报评论 浏览 7371

特斯拉称投资比特币后 市值蒸发2000亿美元

网易科技报道 浏览 26809

最近《美人鱼2》补拍镜头完成,预计今年将选择合适的档期上映

趣看热点 浏览 26662

淘宝去复杂,抖音延周期,2025双11平台直降抢客?

蓝鲸新闻 浏览 1108

冬天避开花花绿绿!试试这些“低饱和度”搭配,简约高级耐看

静儿时尚达人 浏览 13309

美媒独家爆料:“北溪”管道爆炸调查人员面临来自波兰政府的阻力

环球网资讯 浏览 12691

上半年A股涨了,股民亏麻了!问题出在这里

睿知睿见 浏览 15590

美防长住进ICU连拜登都不知情 白宫震惊

环球网资讯 浏览 12751

封印解除!奎克利全面发挥拿下9分5板10助 助攻创赛季新高

直播吧 浏览 12760

面板价格跳水后反弹,电视厂商掀起新一轮涨价,线上线下都不放过

时代财经 浏览 15500

“工业机器人曾是日本的堡垒,但中国已开始在新轨道上竞争”

观察者网 浏览 66

西安市委书记方红卫任上落马 7月刚表态韩松被查

鲁中晨报 浏览 6052

年中发布/细节升级 新款高尔夫R官方谍照来了

一猫说车 浏览 12490

今年夏天最高级的配色!明天就这么穿吧

LinkFashion 浏览 17151
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1