关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元5499人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

上市近30年终落幕，天茂集团主动退市

虎投邦浏览 5534

她们冬天这样穿，真的很美！

黎贝卡的异想世界浏览 4566

球迷态度：颜王刘三人均已34+，李昊今年能否接班国足一门？

懂球帝浏览 4384

精彩推荐

强强联手！市北高新、临汾路街道与中科信息签署战略合作协议，共促人工智能与超高清视听创新发展

上观新闻浏览 4717

开新局·走市场｜烟火“彭”湃！徐州有座“不夜城”！

中国商报浏览 4385

罗马诺：加拉塔萨雷正和贝蒂斯就引进阿尔蒂米拉展开谈判

懂球帝浏览 4231

世界排名升至第2！莫雷加德创生涯新高，力压林诗栋雨果张本智和

乒谈浏览 3745

美媒：大批美军机突然飞往欧洲

环球时报国际浏览 4350

全新宝马X5领衔宝马2026巴黎车展阵容公布

车质网浏览 4284

当前最火的五部电视剧，《老舅》跌至第二

草莓解说体育浏览 4773

小伙雕刻＂全球首个汽车石窟＂曾雕＂奥特曼＂石窟引争议

封面新闻浏览 11135

塞内西：只想为阿根廷效力，不想去唱毫无认同感的意大利国歌

懂球帝浏览 4410

中方回应后特朗普态度又变美财长拿30万中国留学生说事

现代小青青慕慕浏览 9857

上海百万平方米AI小镇全球亮相！20亿元创业基金虚位以待

上观新闻浏览 6215

哪吒汽车“重启”新进展

大象新闻浏览 4750

掘金除约基奇都上货架！穆雷成引援筹码？美媒模拟湖掘魔三方交易

颜小白的篮球梦浏览 1276

东风本田10月销量28896台 1-10月累计终端销量255073台

网易汽车浏览 5343

女人老了别瞎穿，记住“衣不紧身，裙不上膝”，才是真的优雅

静儿时尚达人浏览 5156

请“村长”当副总裁、拿下7000台订单，何小鹏：汇天飞行汽车2026年将量产

时代财经浏览 5417

清华REMA框架：透视AI推理错误根源

科技行者浏览 5498

老己，买点什么犒劳辛苦了一年的你？

时尚COSMO 浏览 4748

中东局势令美联储政策左右为难

国际金融报浏览 2794

内塔尼亚胡：加沙地带停火将很快进入下一阶段

环球网资讯浏览 4797

《小城大事》上星央八热血筑梦正当时

小小李娱浏览 4400

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1