关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者159人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

日本核污染水排放入海 国内多平台食用盐缺货

第一财经 浏览 87348

美菲又在南海挑衅 中国军舰一句话回应

大象新闻 浏览 12351

水花61分齐迎里程碑:库里3500三分末节16分 克莱三分历史第9

醉卧浮生 浏览 12129

E句话 | 没了于正的大饼,祝绪丹也有好饼

仙女事件簿 浏览 12299

网飞开年第一部限制级,爽翻了

独立鱼 浏览 12198

申花亚冠赛季首胜!连战蔚山首尔不败,阿苏埃建功,延续5大纪录

奥拜尔 浏览 268

小米开源语音大模型Xiaomi-MiMo-Audio,对话自然度达拟人水准

IT之家 浏览 1016

人类遗忘的难题解法,被GPT-5重新找出来了

量子位 浏览 418

退出春晚、被综艺开除,贾玲的下场竟然如此?

阅识 浏览 10

比亚迪驱逐舰 05 荣耀版上市,7.98 万元起

IT之家 浏览 11511

美国财长:美对俄等国经济制裁可能危及美元主导地位

环球网资讯 浏览 120038

一文读懂保罗若被裁该去哪:最优解去湖人联手詹眉 还3队存可能性

醉卧浮生 浏览 16243

今日热点:时代峰峻否认张峻豪恋情;汤唯孔刘片场跳舞......

伊周潮流 浏览 10669

基德:东契奇不想让人们觉得他只是进攻出色 他想打出强硬防守

直播吧 浏览 12077

黄奕钟丽缇女儿同框,中西方妆造差距超明显

一盅情怀 浏览 329

对话工程院院士王浩:我国独创的“河湖长制”值得向“全球南方”国家推广

封面新闻 浏览 158

初秋街头的松弛vibe 怎么穿出来?

创作者_WCD3 浏览 14383

金价暴跌 不少上海人跑外地买黄金:就像在抢大白菜

极目新闻 浏览 3253

男人的容貌焦虑来了 天价整容"猎人眼"

新欧洲 浏览 16268

俄国防部称缴获2辆德制"豹2A6"坦克 媒体:普京笑了

直新闻 浏览 91869

英媒:为增加对俄压力 英将把"瓦格纳"列为恐怖组织

环球网资讯 浏览 18117
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1