关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4046人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

消失8年,这T0级演员突然复出了

独立鱼 浏览 4044

半年暴涨超470%!中际旭创,实控人拟套现22亿!

侃见财经 浏览 4756

王玉雯激动发合照,评论区林一破防

鲁中晨报 浏览 4134

或为黄色特别版 斯巴鲁BRZ新车型预告图发布

车质网 浏览 4391

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者 浏览 3206

1200亿元深耕中原!中国人寿助力河南区域经济高质量发展

证券市场周刊 浏览 4130

日媒:中国呼吁公民暂缓赴日的措施 超出了日本预期

扬子晚报 浏览 44500

法式纯电钢炮 2026款标致E-308 GT新车图解

车质网 浏览 4861

34年来首次 普京下令起草恢复核武器试验提议

红星新闻 浏览 3923

唱吧等39款APP被通报

第一财经资讯 浏览 3953

苹果iOS、谷歌 Android 系统将面临英国更严格反垄断审查

IT之家 浏览 4260

宋承炫官宣当爸!“奉子成婚”还是早有规划

今古深日报 浏览 1444

带伤作战,王哲林:手指的伤势又严重了,吃了止痛药才能好点

懂球帝 浏览 3261

普京警告欧洲勿阻挠和谈:如果欧洲想打 我们准备好了

澎湃新闻 浏览 3477

美媒:美国曾以为贸易战能改变中国经济 但它错了

环球时报国际 浏览 15112

提供两种动力 日产NX8有望于3-4月上市

车质网 浏览 3175

罗马诺:阿贾克斯即将与富安健洋签约半年,根据表现可能续约

懂球帝 浏览 3546

TA夸怀特、哲凯赖什和苏比门迪:各展所长,共同铸就关键胜利

懂球帝 浏览 3116

AI终端战事升级:大厂跨界厮杀,阿里、字节、理想同场竞速

时代财经 浏览 3584

慢镜头:科莫球迷主场静默15分钟,抗议米兰vs科莫的海外赛

懂球帝 浏览 4377

岚图泰山X8大湾区登场!粤港澳迎来8系唯一四激光全地形SUV

网易汽车 浏览 166
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1