关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者86人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《南来北往》大结局:牛大力姚玉玲喜生贵子,最终家庭事业双丰收

肆季娱乐 浏览 12024

普里戈任发表讲话:撤退是为避免俄罗斯人流血

界面新闻 浏览 18211

"医生里面最会做官的"院长落马 案件更多细节披露

八点健闻 浏览 109896

电动公交陷困境:电池衰减严重、停运,不敢开空调

界面新闻 浏览 13936

无差别圈粉观众,小逗剧场让喜剧迎来春天

吐槽电影院 浏览 11696

5岁女童"站下腰"摔倒致高位截瘫 培训机构被判赔210万

红星新闻 浏览 67237

人过五十别瞎穿!少碰花衣和紧身裤,这样穿才叫越老越有味道

静儿时尚达人 浏览 210

A股高股息资产受捧,一文看懂如何布局!

网易财经 浏览 11936

一个月了,怎么还在骂啊?

麻辣婊 浏览 141

长江证券:求解,新年经济

网易财经 浏览 12053

日本半导体巨头选择“两条腿走路”

环球时报国际 浏览 12172

深圳楼市的罕见机会,来了

博闻财经 浏览 357

夏天的高级感,一定少不了“皇室蓝”

Yuki女人故事 浏览 10645

张勇:期待重组对业务产生积极影响

南方都市报 浏览 13771

枢密院十号:天上的宇航员都回不来了,波音还在“丧事喜办”

环球网资讯 浏览 10211

国产工业软件企业安世亚太拟IPO 中信证券辅导 中网投、保利、中车都投了

科创板日报 浏览 10651

曝娜扎被抢休息室,刘亦菲聊天监听,后台大瓜!

萌神木木 浏览 381

Meta CEO 扎克伯格首次参加柔术比赛,夺得金牌和银牌

IT之家 浏览 17716

拉莫斯:可以接受战平浙江队的结果,球队走在正确的道路上

懂球帝 浏览 129

特斯拉上海超级工厂或扩建 产能有望进一步提升

网易科技报道 浏览 25659

德外长:支持向沙特出售欧洲战斗机

环球网资讯 浏览 12335
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1