关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者2682人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

太阳报:奥利塞帮助埃泽适应枪手新生活,二人经常会在线下棋

懂球帝 浏览 2313

A股年内近160股易主

北京商报 浏览 2371

卷首语 | 在动物园散步才是正经事

时尚COSMO 浏览 4600

深度解读“碱基编辑技术”:首个定制基因编辑疗法案例获成功

DeepTech深科技 浏览 1736

TA夸怀特、哲凯赖什和苏比门迪:各展所长,共同铸就关键胜利

懂球帝 浏览 1736

春节互联网大厂红包大战背后是AI流量密码?

BT财经 浏览 1621

南特科技:加工服务业务收入核算方法存“两个版本” 称客户未指定供应商或现信披疑云

金证研 浏览 3020

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

扬子晚报 浏览 7505

99年女生读博时退学去开公司修家电:好评近100%

大象新闻 浏览 22261

中国游客称在瑞士看到峨眉山石 官方证实:已落户10年

封面新闻 浏览 10662

对话郝飞:智能座舱新物种 斑马为端芯片带来的新机遇

网易汽车 浏览 3036

美国举起关税大棒持续施压 伊朗要给“难忘教训”

环球网资讯 浏览 1846

引领效率革命、深挖万亿红利,京东工业的价值逻辑

尺度商业 浏览 2253

卡拉格:如果枪手本赛季夺冠,拉亚一定是最关键的因素之一

懂球帝 浏览 722

萨里:我们没给罗马太多机会,但随后自己阵脚大乱

直播吧 浏览 3656

周星驰新片被传空降春节档,制作成本3.8亿,票房能否冲击40亿

娱乐圈笔娱君 浏览 1589

响应市场需求,积极推动中加经贸合作

国是直通车 浏览 1792

高德杀入美团百度腹地,马云其实要和刘强东大决战?

BT财经 浏览 2678

UC圣地亚哥学者巧用树形搜索让AI画画训练快2.4倍

科技行者 浏览 1954

特朗普还嘴硬:莫迪保证过不买俄罗斯石油了

澎湃新闻 浏览 7994

队报:马尔基尼奥斯伤病恢复慢于预期,将缺席本周法甲比赛

懂球帝 浏览 2953
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1