关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4569人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

3人因销售火麻种子被判缓刑申诉获再审 法院维持原判

澎湃新闻 浏览 23088

《阿凡达3》第一波真实口碑解禁,国内票价却令人咋舌!

娱乐圈笔娱君 浏览 3805

最喜欢的对手,特罗萨德职业生涯对利物浦进球最多

懂球帝 浏览 3474

国乒官宣!王楚钦孙颖莎领衔出战亚锦赛,战果影响伦敦世乒赛资格

乒谈 浏览 5180

福域架构赋能智趣烈马 同级唯一提供增程+纯电版

网易汽车 浏览 4403

郑丽文第二波人事公布:张荣恭、萧旭岑任国民党副主席

海峡导报社 浏览 9817

TA:维拉已与卡什就续约达成原则性协议,将续约至2029年

懂球帝 浏览 4518

神奇少帅诞生!陈涛2战6分上岸,媒体人狂赞:比不靠谱洋帅强多了

奥拜尔 浏览 4425

阿 Sa4 段公开情史终定局,兜兜转转还是选了他

南万说娱26 浏览 1392

下一代GPU,竞争激烈

半导体行业观察 浏览 5206

特朗普强调美以两军配合默契:以装备并操作大量美制武器系统

极目新闻 浏览 2449

春天衣服别只穿黑色,看看下面这些彩色穿搭,亮眼还有感染力

静儿时尚达人 浏览 1366

恰逢成都保卫战30周年,2025老甲A12月8日在成都双流开赛

懂球帝 浏览 4317

特朗普遇到"反关税"广告:再给加拿大加10%关税

红星新闻 浏览 9932

沈梦辰陪婆婆追星圆梦,开朗婆婆让梦辰有点社恐

绿叶贝贝 浏览 3268

意媒:巴萨、米兰旧将德乌洛费乌时隔3年重返训练场

懂球帝 浏览 1200

恭喜!49岁萧煌奇官宣结婚,和妻子晒结婚戒指分享甜蜜

素素娱乐 浏览 3302

楊千嬅开live老公乱入因一事说离婚

粤睇先生 浏览 3746

两名国民党民代遭起诉 郑丽文:民进党想团灭在野党

海峡导报社 浏览 15140

腾讯 AI 实现肺癌基因突变预测,精度最高 99%

IT之家 浏览 4601

19岁女生挪用千万打赏主播细节曝光!主播不无辜,疑买房转移资金

萌神木木 浏览 1590
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1