关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元1538人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

保暖和颜值兼备,你太需要它了 | 好物

LinkFashion 浏览 14827

一波未平一波又起!曝汪姓男明星性侵19岁女子

网易娱乐 浏览 16285

男子在同一4S店买2辆同款车 只为证明第一辆车有问题

极目新闻 浏览 74469

拜登称以色列提出新的三阶段停火方案

央视新闻客户端 浏览 11576

70后省部级高官任上落马 前领导二十多天前被查

中国新闻周刊 浏览 79238

波兰称考虑禁止中国电动汽车进入其军事基地 中方回应

财联社 浏览 4523

特朗普拉9国组成联盟要废除中国王牌 中方回应有深意

博览历史 浏览 6361

小个子女性夏天避免这4条裙子 显矮又显老

潮人方法论 浏览 16929

新质生产力“可感可及”,华强北机器人展演月“硬核度”爆表

南方都市报 浏览 2039

2024年了,最好看的还是这件毛衣!

LinkFashion 浏览 13981

2026年国家补贴来了,只需三步,收好这份省钱指南!

贝壳财经 浏览 515

马斯克与美国证交会达成协议 将向投资者赔偿4000万美元

财联社 浏览 14916

普京:俄不拒绝谈判 但西方应先停止供武

环球网资讯 浏览 16707

孔德昕:太阳输了最不该输的比赛之一 三巨头不敌无莫熊

直播吧 浏览 13204

沃尔什:绿军球迷喜欢爱倒地拼抢的球员甚于能扣篮的 我就是如此

直播吧 浏览 16262

30年来首次!美国法院系统也被卷入停摆 业内预计政府关门将“史上最长”

财联社 浏览 1516

外星人是假的?可它真能挣钱啊!

酷玩实验室 浏览 12998

4年时间门店从0增至960家,全国开店的零食品牌,如今陷入闭店争议!官方回应:主动放缓是策略,不是叫停加盟

每日经济新闻 浏览 588

抖音提出AIGC相关规范!AI生成内容要有相关标识 虚拟人需注册

网易科技报道 浏览 18939

华为车BU新公司“引望”正式成立 注册资金10亿

网易科技报道 浏览 13302

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

LinkFashion 浏览 308
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1