关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元832人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

好莱坞资深女星在家去世多日!家中飘出恶臭室友报警,死因离奇

文艺圈娱乐号 浏览 13042

我永远不会买黄金,更不会投资黄金!

浏览 23088

宗馥莉几乎搞砸了一切

功夫财经 浏览 879

人到中年服装更要重品质!冬天就这样穿

静儿时尚达人 浏览 13260

汪小菲又幸福了!和马筱梅搂腰拥抱好缠绵

疯说时尚 浏览 789

短剧女神郭宇欣让多少白幼瘦女星脸红?

娱乐圈笔娱君 浏览 603

股权被冻结还被带走调查?王濛工作室发声回应

上游新闻 浏览 14521

对标丰田4Runner 本田新款Passport最新消息曝光

乐选爱车 浏览 987

科比去世一周年,欧文穿8号球衣纪念偶像

趣看热点 浏览 25380

郑丽文"不谈统一"让人失望了 蔡正元的话一针见血

现代小青青慕慕 浏览 5726

特朗普:空管员不返岗就扣薪 建议停摆期未请假者奖钱

鲁中晨报 浏览 29140

外交部回应布林肯称"美国将继续做中方不喜欢的事"

外交部网站 浏览 15420

从播放次数到播放时长,背后是B站的一次“改短”失败

电厂 浏览 15423

全国女性省委副书记再添一人 曾是最年轻的省级女常委

政知新媒体 浏览 95913

真正优雅的50、60岁女人,不留黑长直,更不扮嫩,这样太美了

静儿时尚达人 浏览 12768

销量又被超越,理想汽车与问界的「角逐」才刚开始

钛媒体APP 浏览 12329

出口有望连续两月增长,消费贡献占比已超八成,多方预测中国经济长期向好

环球网资讯 浏览 12713

成熟企业做新品牌往往很难成功,为什么?

创业家 浏览 746

卢拉:已和中国、阿联酋就联合调解俄乌冲突进行讨论

环球网 浏览 109563

73亿网龙创始股东郑辉去世,公司曾靠薅百度羊毛赚60亿

野马财经 浏览 16268

坏了,看到剧本杀鼻祖了!

时尚COSMO 浏览 563
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1