关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技3190人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

华为智慧屏新品MateTV Max今日预售,110英寸64999元

IT之家 浏览 2714

Unity 中国官宣与零跑汽车合作,打造下一代智能座舱交互体验

IT之家 浏览 2952

神舟二十号飞船以无人状态安全顺利返回,面对新挑战,更多任务细节公布

上观新闻 浏览 2056

26款奔驰“小S级”售价亲民,外观豪华,车长超5米,搭载2.0T轻混

小史谈车 浏览 1445

斯基拉:法比安即将与巴黎续约至2029年,交易已敲定并确认

懂球帝 浏览 1997

胜利就是最佳礼物,B费:为曼联出战300场最好的庆祝方式

懂球帝 浏览 2549

穆勒:我认为这场美职联决赛非常棒;再次见到梅西他们很开心

懂球帝 浏览 2509

帧帧美若油画,库布里克大神杰作告别放映!

幕味儿 浏览 2026

细菌对抗生素的两种生存机制被揭示

财闻 浏览 2137

国羽包揽韩国公开赛混双冠亚军

体坛周报 浏览 3677

萝卜快跑计划将业务扩展至澳洲和东南亚

盖世汽车 浏览 3786

巴基斯坦俾路支省反恐行动打死145名恐怖分子

上观新闻 浏览 1900

全系智混 全新奥迪Q5L上市售30.98万起

网易汽车 浏览 1988

广汽昊铂GT全新Lite版上市 售价15.38万元起

网易汽车 浏览 3032

向太曝郭碧婷父亲患病或时日无多,儿媳长期留台,私房钱贴补娘家

不八卦会死星人 浏览 3261

大学教授教100个老人用大模型,让AI了解他们真正的困境

每日人物 浏览 2374

没有人不爱这个穿平底鞋都发光的女人

时尚COSMO 浏览 1159

米体:尤文希望在冬窗引进新后卫,目标包括什克和金玟哉

懂球帝 浏览 3138

维拉已放弃买断桑乔!曼联若解约多特或引进,只会免费签约不给钱

罗米的曼联博客 浏览 2935

高市在日本青年群体中获极高支持率 专家解读

北京日报 浏览 18343

支付宝旗下两家经营主体完成更名,支付宝APP名字不变

澎湃新闻 浏览 3889
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1