关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者2954人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

王传君拿下东京电影节影帝!撕奖过程太精彩,连坑两位中国女星

萌神木木 浏览 2947

美媒:特朗普羡慕中国 华盛顿正在模仿北京

观察者网 浏览 6049

给过去十年最好的10部“历史剧”排名:《太平年》第7,第1无争议

皮皮电影 浏览 1794

惠州4A景区改造遭抵制 旅居业主:站阳台看海变看商铺

每日经济新闻 浏览 7268

五粮液第三季度营收、净利润同比分别下降52.66%、65.62%

红星资本局 浏览 3097

马斯克:特斯拉Optimus机器人将成为“令人难以置信的外科医生”

IT之家 浏览 3037

南京爆冷无缘苏超决赛,苏州发布9个感叹号!网友:像是在放鞭炮

风过乡 浏览 3250

华东智能无人系统试验测试认证基地全面完工 占地76亩

财闻 浏览 3190

抓走马杜罗的美军三角洲部队 曾两次大败而归

扬子晚报 浏览 8869

黄慧颐晒结婚证回击保剑锋,业内下场曝猛料,女方曾持刀捅伤男方

萌神木木 浏览 2052

宋慧乔怎么不会老啊?

时尚COSMO 浏览 2159

阿尔托贝利:希望劳塔罗能保持健康,他有机会破梅阿查的纪录

懂球帝 浏览 2152

卷首语 | 拒绝和解的勇气

时尚COSMO 浏览 2988

拖欠WTO的会费 美国已悄悄补缴

上观新闻 浏览 8492

猛龙109-97逆转老鹰,英格拉姆20分,巴雷特19+5+4

懂球帝 浏览 2783

法拉利战略转型,电动跃马如何取悦中国用户

桑之未 浏览 3321

今年最强阵容的大片,杀疯了

独立鱼 浏览 2766

付豪:其实我们比球迷更想赢球,但球队实力与过去不可同日而语

懂球帝 浏览 2208

跨省调查结束!被延期留置150天后,德州首富平安返岗

壹只灰鸽子 浏览 2856

小米汽车直播间遭网暴,仅剩一家门店直播,雷军抖音账号半个月掉粉30万

红星资本局 浏览 3166

坏了,看到剧本杀鼻祖了!

时尚COSMO 浏览 2383
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1