关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4044人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

粿粿、王子同游被指没边界感:会偷吃就是会偷吃

一池春水l 浏览 3975

王毅与鲁比奥通话内容披露 台当局陷前所未有战略焦虑

京彩台湾 浏览 14751

不敌王楚钦,松岛辉空:满脑子只有不甘心,混双应该能复仇

懂球帝 浏览 3535

哈马斯证实达成加沙停火协议

CCTV国际时讯 浏览 3649

宏和科技一季报利润大增354%!AI驱动电子布狂飙背后,300倍PE能否持续?

时代周报 浏览 1434

于文文贵州演唱会晕倒,曝被救护车拉走,连轴演出引粉丝担忧

扒虾侃娱 浏览 2973

白酒巨头一季报业绩普降,白酒拐点临近还是拐点远未到来?

郭施亮 浏览 1204

今年最时髦的穿法:长外套+长裤,太高级了!

LinkFashion 浏览 2726

豪华5座中大型SUV!续航2327km,瞄准理想L6

隔壁说车老王 浏览 4012

看了隆妮表演才知道,观众都冤枉杨幂了?

霁月文娱阁 浏览 4367

“满200减20”变“满200减200”,豆瓣App致歉:将对所有异常订单进行自动退款

扬子晚报 浏览 2557

是否以入选英格兰队为目标?勒温:努力训练,顺其自然

懂球帝 浏览 3469

以军对加沙地带南部的哈马斯目标发动袭击

新华社 浏览 4251

京粤沪专家齐聚,2026“人工智能+”教育行动在深外举行

南方都市报 浏览 1134

翁帆:杨先生离开时一定很欣慰 他交出了份满意的答卷

光明日报 浏览 7714

何猷君为6岁儿子何广燊庆生,儿子神似赌王

王稱吃吃喝喝 浏览 4213

疑张亮儿子塌房,留学致女同学怀孕?

观察鉴娱 浏览 3711

上海交大突破:AI精准学习人类审美偏好

科技行者 浏览 4036

又有8个大V账号被封!雪球一日连发“两弹”,“游资战法”等遭重点打击

第一财经资讯 浏览 3181

经纪人:公平地对待库明加 考虑当下就给球员选项 考虑未来就加钱

直播吧 浏览 5049

美媒:参与对委军事行动的十余架F-22战机离开波多黎各

环球网资讯 浏览 9579
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1