关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4352人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

孙红雷和妻子王骏迪逛街,比老婆矮显娇小

八怪娱 浏览 3319

黄仁勋放豪言:到2027年Blackwell和Rubin芯片至少创收1万亿美元

华尔街见闻官方 浏览 2190

周杰伦昆凌晒照庆结婚11周年,夫妻合照很甜蜜,与家人庆贺很温馨

笑猫说说 浏览 3192

你从托马斯·穆勒身上吸取教训了吗?

绿茵情报局 浏览 3193

中佛罗里达大学破解仿真优化难题:让计算机在噪声中找到最优解

科技行者 浏览 3273

一天4瓜!个个离谱

阿纂看事 浏览 4094

赵磊:一个把粉丝当ATM,最后和私生锁死的男人

八卦三缺一 浏览 3503

卷上天的新能源厂商,销量却被燃油车背刺了

虎嗅APP 浏览 4368

她说“友谊万岁”的这个夜晚,揽胜已经等了五十六年

禾颜阅车 浏览 1337

不管在什么地方 你都是那样拉轰的男人

星球商业评论 浏览 3978

沪电股份:前三季度净利润同比增长47.03%

网易财经 浏览 4094

高云翔深夜在天津街头淋雪,边走边笑

观察鉴娱 浏览 3200

土耳其对内塔尼亚胡等人发出逮捕令 以色列回应

环球网资讯 浏览 3889

女星安吉丽娜·朱莉访乌 其随身保镖被乌军征兵处抓走服役

极目新闻 浏览 4042

养乐多卖不动了?

斑马消费 浏览 4296

梁衍波当选青农商行董事长

21金融圈 浏览 3090

指控闻泰科技的安世荷兰高管 大幅提高了自己的薪水

澎湃新闻 浏览 32137

AI时代存储“超级牛市”降临?透视A股存储核心产业链掘金逻辑

时代周报 浏览 3036

记者:切尔西已经向塞门约经纪团队进行了初步询价

懂球帝 浏览 3436

E句话|她回应已分手,这俩原来真谈过?!

仙女事件簿 浏览 3273

美媒:美军事小组抵达以色列 “监督”执行加沙停火协议

环球网资讯 浏览 4429
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1