关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元1644人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

朱孝天回应阿信感谢,自曝没再收到邀约

萌神木木 浏览 695

千亿自助餐市场,正在跑出第一家IPO

餐饮老板内参 浏览 374

曹骏舒畅世纪同框,蓝盈莹自食恶果,高低立判!

情感大头说说 浏览 42

美伊本周有望在土耳其开谈 伊朗或在核问题上松口

上观新闻 浏览 2685

澳网公布创纪录奖金池,史上最大奖金提升引发热议

网球之家 浏览 589

以军称已按加沙地带停火协议完成撤军

极目新闻 浏览 1655

三亚五星酒店再现10万房价 有人1折买3件奢侈品花1250

时代财经 浏览 16176

上市1月破发20%!“空调屠夫”奥克斯,对不起基石投资者

深蓝财经 浏览 1652

妈妈辈也能轻松穿出高级感:3个实用穿搭法则,优雅不费力

静儿时尚达人 浏览 1466

赵露思新剧开播,直接拿下热播榜第一,硬刚资本的小花又站起来了

最爱酷影视 浏览 2163

新一任美联储主席被任命 华尔街无法确定其"是敌是友"

环球网资讯 浏览 4604

当奥迪走上“对抗路”,特斯拉开始疲于招架

车市雷达 浏览 1593

沃什被提名次日 特朗普:不降息就把他告到裤子都不剩

极目新闻 浏览 6619

纯电续航215km 全新阿尔法T5增程版10月底将上市

网易汽车 浏览 1803

秋到没边的氛围感美甲,一眼心动

时尚COSMO 浏览 1519

关键时刻委少将为美军"敞开大门" 美压制委军手段披露

澎湃新闻 浏览 4563

2026春夏八大流行趋势,早穿早美!

Yuki女人故事 浏览 55

今年秋天的上衣,太上头了!

Yuki女人故事 浏览 1455

告别卡粉斑驳!保姆级遮瑕教程,手把手教你黑眼圈痘印全隐形

Yuki女人故事 浏览 863

同比大涨 奕派科技2026年1月销量突破2.1万辆

网易汽车 浏览 104

邮报:纽卡中卫丹-伯恩遭遇肺穿孔和肋骨骨折,将缺阵六周

懂球帝 浏览 876
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1