关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技1484人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

生图镜头也太狠了吧?熊黛林也扛不住

一只可可 浏览 16879

连衣裙+运动鞋,今秋最美穿法!舒适又时髦!

Yuki女人故事 浏览 1405

总投资90多亿医院突然申请注销!发生了啥?

中国新闻社 浏览 15389

贾永婕说小S越来越像大S,两人早已融为一体,过度消费大S惹争议

萌神木木 浏览 1475

"杭州湾X5"来了 40万级性能插混极氪8X官宣

网易汽车 浏览 472

专家:敏感时刻俄核演习展示肌肉 发出强烈威慑信号

澎湃新闻 浏览 1441

上海业主十一出游后推开家门懵了 精装房成"化粪池"

环球网资讯 浏览 1561

施伯雄为女友庆生幸福对视 吴千语穿红裙大秀身材

叶公子 浏览 14079

烎!烎!烎!直击炮兵分队实弹射击现场

环球网资讯 浏览 17592

热火总决赛还剩最后一张牌:是时候让希罗G4复出了

罗说NBA 浏览 17497

恒瑞前董事长周云曙履新先声药业,曾在恒瑞工作超25年

YOUNG财经 浏览 529

50+女人怎么穿出时尚感?掌握这3招技巧,重新定义优雅与潮流

静儿时尚达人 浏览 1640

在新劳资协议的限制下 勇士目前只剩底薪可以使用

直播吧 浏览 15810

王思聪前任甜仇直播婚礼现场!新郎被曝是官二代

娱絮 浏览 15990

11月国内动力电池装车量93.5GWh,磷酸铁锂占比八成‌

汽车公社 浏览 741

Adobe 200亿美元收购案告吹:给Figma 10亿美元分手费

雷递 浏览 13587

4999元起!荣耀三箭齐发:Air旗舰要从小屏卷向超轻薄赛道?

雷科技 浏览 317

超万人离岗,韩国医生罢工为何持续升级

中国新闻周刊 浏览 12842

价格战打了一整年,车企杀红了眼,2024年继续降?何时是个头?

二师兄玩车 浏览 13218

女孩身着动漫装被地铁安检员拦下"教育" 上海地铁回应

极目新闻 浏览 77129

阿尔巴赛后发文:争取赢下决赛!

直播吧 浏览 14834
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1