关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技839人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全国第二个提前还债的省份,出现在西部

时代周报 浏览 1633

不够多啊!热火向文森特报价4年3400万

直播吧 浏览 15055

中国在俄乌冲突一周年之际发重要文件 引西方媒体关注

上观新闻 浏览 93797

一个长城战略下,哈弗重塑命名体系

帮宁工作室 浏览 818

30多家犬业基地扎推上海西南角 致污水横流良田成荒地

上观新闻 浏览 103892

55岁郑丽文当选国民党主席 其被视为"非典型国民党人"

中国青年报 浏览 4529

最真实又时髦的路人街拍!看完想照着copy一周

黎贝卡的异想世界 浏览 13633

网红大衣哥喜当爷爷 儿媳晒出了双胞胎照片

扒圈818 浏览 16437

女子产后抑郁自缢骨灰被丈夫私自下葬 父母苦寻四年

新民晚报 浏览 4936

欧盟对谷歌提起反垄断诉讼 考虑分拆其广告技术业务

财联社 浏览 16116

计划对菲律宾出口防空导弹 日本危险动作引担忧

上观新闻 浏览 227

李梓萌骗人真相大白,幕后黑手被揪

近史博览 浏览 936

网传周杰伦婚内出轨!昆凌发声回应

扒虾侃娱 浏览 12908

男篮主教练乔帅现身CBA:重点考察00后球员 有望参加亚预赛

醉卧浮生 浏览 12734

奥恰洛夫谈击败张本智和:我打出了顶级水准,自己也有些意外

懂球帝 浏览 655

国际乒联2025年第42周世界排名:王楚钦孙颖莎各自领跑男女单打

懂球帝 浏览 1050

中国机会|ASML:半导体产业开放合作是主流,继续依法合规为中国客户提供坚实支持

澎湃新闻 浏览 727

五菱宏光MINIEV 11月销量56756辆 登顶全行业销冠

太平洋汽车 浏览 93

粉色+灰色、蓝色+棕色,这5组配色怎么搭都好看!

LinkFashion 浏览 13781

全球首家!速腾聚创(02498)全栈自研数字激光雷达芯片通过AEC-Q认证,技术断代领先

智通财经 浏览 1015

珠峰获救女子到达长沙 当面感谢两名施救者

每日经济新闻 浏览 92560
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1