关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者848人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

霉霉演唱会隐秘传爱 疑似与绯闻男友公布恋情

网易娱乐 浏览 19395

绝境爆发!梅西表现有多燃?连续导演大逆转,贝克汉姆狂喜

天涯沦落人 浏览 14411

威尔逊FMVP实现大满贯:美媒晒6荣誉高呼GOAT 现场与队友一同舞蹈

颜小白的篮球梦 浏览 1097

61岁杨昆亲身示范:穿衣简约,妆容淡雅

小陈聊搭配 浏览 16351

小米汽车称已查明泄密媒体 还辞退三位收咨询费并臆造错误信息员工

网易科技报道 浏览 12958

TVB小生靠模仿成名拒再做翻版张智霖

TVB剧评社 浏览 19499

广东渔民捕的"神兽"鉴定为韩江鼋 曾在《西游记》出现

极目新闻 浏览 19594

被许家印坑得最惨的大佬,资产清零了

大猫财经Pro 浏览 740

美军核动力航母亚伯拉罕·林肯号起火

CCTV国际时讯 浏览 15325

iPhone15已试产!富士康8000奖金招工 求职者不想进厂

时代财经 浏览 16056

新茶饮的万店战争

钛媒体APP 浏览 16127

人民银行连续第九个月加量续作MLF

北京商报 浏览 453

女子毕业24年后起诉母校多收4000元学费 要求退一赔十

大风新闻 浏览 17637

吴孟达儿子透露爸爸临终遗愿到底是什么?

趣看热点 浏览 26125

不必悲观!券商发声:相比4月,预计冲击更小!

证券时报e公司 浏览 1089

波兰总理公开喊话:希望在境内部署美国的核武器

环球时报新闻 浏览 88565

“重大转变”,泰国拟严格限制大麻用途

环球时报国际 浏览 12764

股权激励不香了?阿里员工激励计划引入“长期现金”

观察者网 浏览 11301

谷歌DeepMind曝光首个“AI 经济体”完整架构,Agent催生全新经济体正在悄然成形

AI寒武纪 浏览 1835

5天前露面的"老虎"被拿下 曾要求彻查"操场埋尸案"

政知新媒体 浏览 74352

女子花费2000多元认养老虎 结果虎园隐瞒老虎死讯数月

大风新闻 浏览 28764
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1