关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4404人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

倾家荡产120万上星光大道,她如今怎样了

青橘罐头 浏览 4782

消息称鸿蒙智行均价近 40 万元,每 2 分钟卖一台车对市场冲击大

IT之家 浏览 4522

中海成都谋变?曝开发公司连亏2年,桐梓林28亩项目寻合作

密探财经 浏览 2852

陈思诚新作《10间敢死队》定档五一

南方都市报 浏览 2010

春节互联网大厂红包大战背后是AI流量密码?

BT财经 浏览 3306

暴涨的白银有色,白银竟是地名!股民懵逼

财通社 浏览 3495

以军称被扣押人员全部返还前不会停止打击哈马斯

新京报 浏览 4404

海上风电产业发展提速

商业观察杂志社 浏览 1989

市场震荡下均衡配置成“关键手”,资金为何青睐中证500指数?

时代周报 浏览 4719

冬季的“松弛感”,怎么穿?

Yuki女人故事 浏览 4295

东风DH项目启动品牌征名活动

大象新闻 浏览 4603

知名策略师预警:美股“聪明钱”已离场看戏,找不到值得买的票

财通社 浏览 4296

陈小春在沈阳开演唱会,被东北观众感动到流泪

小娱乐悠悠 浏览 4131

徐正源:永不言弃是成都强大的DNA 韦世豪伤情要等明天才有结果

直播吧 浏览 5327

俄乌战场惊现"丐帮打法" 俄无人机绑棍子捅落乌无人机

鲁中晨报 浏览 10353

"网红罗大美遇害案"新进展:三名被告人均提出上诉

扬子晚报 浏览 10894

市场关键时点前夕,伦敦金属交易所交易一度中断两小时,铝锌等金属受影响

华尔街见闻官方 浏览 2582

AI再次降维打击人类 仅用1小时破译500年未解的"天书"

上观新闻 浏览 8451

法国宣布推出M51.3潜射弹道导弹 称其为“重大里程碑”

环球网资讯 浏览 4458

西媒:巴萨2019年违规接触格子,可能构成管理不善和账目造假罪

懂球帝 浏览 4660

皇马TV显示,贝林厄姆将在国家德比中担任首发右边锋

懂球帝 浏览 4551
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1