关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4214人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

冬天别总只穿“羽绒服”,试试这些日常穿搭,简单舒适显身材

静儿时尚达人 浏览 3461

AI闭环交易再引争议:OpenAI入股Thrive Holdings,或瞄准更多私募

华尔街见闻官方 浏览 3647

闪电快讯|东风奕派eπ007+正式上市 限时焕新价13.99万元起

电厂 浏览 4013

阿森纳1月最佳候选:哲凯赖什、苏比门迪、热苏斯、马丁内利

懂球帝 浏览 2812

赖清德求特朗普让中国大陆放弃对台用武 朱立伦怒批

海峡导报社 浏览 19614

脑机接口再获突破,核心龙头布局多点开花

览富财经网 浏览 4115

“躺赚”的企查查,是个苦生意?

定焦One 浏览 4238

赵本山:从家喻户晓到一夜消失

脑洞乌托邦小乌 浏览 3507

50+女人别踩坑!远离紧身裤和老年装,这样穿优雅又显瘦

静儿时尚达人 浏览 3557

收藏=会了?你可能确诊“电子仓鼠症”

时尚COSMO 浏览 3794

调研 | 从陪伴“小巨人”企业A+H股上市,看宁波银行服务硬科技范式转变

券商中国 浏览 866

泽连斯基称乌将在柏林和哥本哈根设立武器出口办事处

环球网资讯 浏览 3720

澳网总监:女子赛事若采用五盘三胜,或将在2027年实施

懂球帝 浏览 2806

马杜罗:美国对委内瑞拉威胁是"老调重弹"

国际在线 浏览 3570

全球红人经济“超级枢纽”!天下秀递表港交所,新浪微博持股近27%|港E声

时代周报 浏览 3206

詹姆斯:湖人的投篮困境终会过去;这周对我来说有点像训练营

懂球帝 浏览 3551

两场硬仗,一个拐点,蔚来穿越最长谷底

雪豹财经社 浏览 4035

60岁温碧霞和同龄人聚会,活成了“小公主”

听风听你 浏览 2793

这些才是最适合普通人的穿搭!上衣修身、一衣多穿,大方简约

静儿时尚达人 浏览 1220

猛士汽车2025全年销量10228台 同比增长387%

网易汽车 浏览 3113

特朗普突然"通知"中国:带3样东西来谈 否则后果自负

博览历史 浏览 12743
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1