关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者2207人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

速卖通正在成为更多亚马逊商家的第一阵地

华尔街见闻官方 浏览 2640

骗取生育保险基金,主犯获刑十年!国家医保局曝光典型案例

环球网资讯 浏览 2486

今年春节档头号种子,是它

电影最TOP 浏览 1069

美乌总统再度激烈争吵 特朗普爆粗口还把地图给扔了

扬子晚报 浏览 8149

鑫元基金,出了个年度“亏损王”

深蓝财经 浏览 1354

德国Mindfactory平台数据:AMD处理器周销量是英特尔10倍多

IT之家 浏览 1919

舍伍德:大家都想看枪手掉链子,但我真希望他们赢得英超冠军

懂球帝 浏览 1746

理想「断腕」:关店100家,李想手里还剩什么牌?

电车通 浏览 1159

机器人爆单之后

北京商报 浏览 1973

镜报:格拉利什对阵曼城需要回避,这让英超的公平性受到损害

懂球帝 浏览 2594

明明美到雌雄难分,却痴缠渣男20多年

TVB的四小花 浏览 2888

卫星图像首次发现:伊朗两处受损核设施有"重大活动"

澎湃新闻 浏览 5743

皮尔斯:如果我和詹姆斯年纪相同,他绝对不可能拿到4座冠军

懂球帝 浏览 2356

瀚森真实命中率联盟垫底!断层落后倒数第二 投篮能力需大幅提升

罗说NBA 浏览 1098

浩坤昇发资产观点:学会适应一个“正常上涨的市场” 潮落潮起终有信,再攀千点启新程

经理人杂志 浏览 2124

石破茂发表战后80年"个人见解" 专家:需要政治勇气

环球网资讯 浏览 2604

足球报:北京市体育局与足协相关领导都会现场观战足协杯决赛

懂球帝 浏览 1901

国产新能源还在内讧,福特CEO已经吓破胆了:能让我们全军覆没

小李车评李建红 浏览 2128

以专家:以色列唯一正确选择 就是100%服从特朗普安排

中国新闻周刊 浏览 10443

舒淇现身亲揭《女孩》没报金马奖原因

ETtoday星光云 浏览 2315

这些年轻科学家不再满足于“追赶美国”

知识分子 浏览 2868
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1