关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者904人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

复旦留美博士流浪街头曾有过4年婚姻 疑对家人有怨恨

上观新闻 浏览 74993

推特崩了?马斯克出手:限流!

每日经济新闻 浏览 15722

普里戈任私人飞机在俄坠毁 美媒:拜登已听取简报

海外网 浏览 14202

NBA球员有哪些不为人知的副业?

趣看热点 浏览 25962

首个有期徒刑正式宣判,恒大、中植“关键人”一个都跑不了!

深蓝财经 浏览 778

俄军称再拿下哈尔科夫地区一村庄

每日经济新闻 浏览 10946

‍2025年4部新片亏8亿,古天乐终于拿出这部大片

靠谱电影君 浏览 1083

春晚开播第二天,全网都在搜他的神图

她刊 浏览 13254

“女性爽剧”贤妻梦

严肃八卦 浏览 12426

里程碑!祖巴茨砍下生涯第100次两双

直播吧 浏览 12530

男子花4万为父母升头等舱 手机遗失被安全员占为己有

鲁中晨报 浏览 1151

宇树科技更名!正在办理工商变更,已完成首期上市辅导

红星资本局 浏览 965

H-1B签证费涨至10万美元 分析人士:将重创美科技行业

财联社 浏览 17442

热搜上消失的女明星,正在偷偷养鸡

Yuki女人故事 浏览 1160

美联储如期暂停加息 暗示还会再加两次

网易财经 浏览 16220

SHEIN收购Forever 21母公司股权,“小单快反”方法论输出全球

界面新闻 浏览 14372

超级烂!波杰姆斯基6中1得到2分9板2助 正负值-31全场最低

直播吧 浏览 12518

三节三双!东契奇前三节26中14砍下38分11板10助

直播吧 浏览 13119

NBA战报:灰熊141-125热火,阿德巴约23分

懂球帝 浏览 1058

澳海滩枪击惊魂50分钟:枪手占据天桥向下扫射

澎湃新闻 浏览 5649

广州一变电站迎来全球首发机器人:可全向移动、双臂协作

南方都市报 浏览 498
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1