关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4402人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

入秋第一条裤子就买它!时髦显瘦,巨好看!

Yuki女人故事 浏览 5111

9岁女孩在埃及飚英语维权:8个月起就跟爸爸"浪迹天涯"

潇湘晨报 浏览 31931

精致穷,我们在为“符号消费”买单

时尚COSMO 浏览 4629

被拐25年的解清帅大婚 婚礼现场有主播直播带货

半岛官网 浏览 4689

博主:咪咕要求CBA独家版权并介意和担心抖音介入,但篮协主张非独家

懂球帝 浏览 3917

比朔夫:最喜欢的球员是维蒂尼亚和基米希;梅罗选谁?梅西

懂球帝 浏览 3608

OrangePi 6 Plus 开发板公布:12 核 CPU,双 M.2 SSD 双 5GbE

IT之家 浏览 4606

全智贤与《暴风圈》剧方仍未发文道歉

韩小娱 浏览 5621

闭店风波后,实探“上上谦”仅存门店:薛之谦曾入股,周末用餐高峰仍需排队

时代周报 浏览 4328

罗马诺:鲍勃转会富勒姆谈判进最后阶段,曼城坚持要3500万镑

懂球帝 浏览 3439

郑智化吐槽大陆机场,评论区沦陷

娱乐圈笔娱君 浏览 4500

7场贡献3球1助攻,麦肯尼当选尤文1月最佳球员

懂球帝 浏览 3414

马德兴:国少有身高优势却让高中锋替补,浮嶋敏备战有大问题

懂球帝 浏览 1406

看到洪水冲毁花莲桥梁大声讪笑 台官员被批"冷血"

澎湃新闻 浏览 6633

经纪人:公平地对待库明加 考虑当下就给球员选项 考虑未来就加钱

直播吧 浏览 5400

Unity 中国官宣与零跑汽车合作,打造下一代智能座舱交互体验

IT之家 浏览 4388

福斯特:曼联看起来很有信心,但争4与曼城相比差距依然明显

懂球帝 浏览 4388

E句话| 林依晨前男友被判刑了?

仙女事件簿 浏览 1413

特朗普施压伊朗:美军舰队规模比在委内瑞拉的还大

大风新闻 浏览 7480

美股反弹!纳指收涨2.21%,黄金、白银期货飙涨创历史新高

中新经纬 浏览 4697

爱马仕继承人,千亿家产被最好的朋友骗光

Yuki女人故事 浏览 4149
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1