关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3217人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

剑桥大学团队揭秘:如何让计算机像管家一样聪明地分配工作

科技行者 浏览 1745

以军坦克开进加沙城 特朗普警告哈马斯“别动人质”

澎湃新闻 浏览 3965

“十五五”新动能论坛举行,专家建言AI赋能与周期穿越双轮驱动新质生产力

上观新闻 浏览 1719

大湾区晚会名场面!小沈阳被女儿抬走?

小娱乐悠悠 浏览 3683

特朗普对全世界一视同仁,中美关系未必会更糟

浏览 25920

徐彬:邵指导是第一个想让我出去踢球的;拿手菜有把子肉

懂球帝 浏览 1837

张子宇WCBA首秀砍15+6,山东主帅:联赛的对抗她还需要慢慢适应

懂球帝 浏览 2146

法国队史第3次闯入U20世界杯半决赛,此前一次夺冠一次第4

懂球帝 浏览 3222

广东110-105深圳4利好!陈家政焦泊乔证明价值,萨林杰统治关键球

篮球资讯达人 浏览 2126

以军称开始重新执行加沙停火协议

上观新闻 浏览 2883

集微咨询发布《2025中国半导体后道设备行业上市公司研究报告》;

爱集微 浏览 2247

石破茂发表战后80年"个人见解" 专家:需要政治勇气

环球网资讯 浏览 3371

特朗普称与北约达成格陵兰合作框架 吕特:没提丹麦

澎湃新闻 浏览 19419

生物芯片上海国家工程研究中心四川分中心在成都揭牌

封面新闻 浏览 3135

乌武装部队前总司令扎卢日内提议:在乌克兰部署核武器

环球时报国际 浏览 16977

吕丽君女儿正脸照罕曝光,犹如翻版刘銮雄!

娱乐团长 浏览 2391

严屹宽老婆41岁生日,婆婆送杜若溪万元大红包

爱八卦的晓请 浏览 1876

两女生称花90多元入住成都民宿 在空调管道发现摄像头

极目新闻 浏览 105552

王楚钦低调现身演唱会!全场观众疯狂尖叫

小椰的奶奶 浏览 3807

缅北魏家杀人要求"打光所有子弹":尸骨呈跪姿 头中7弹

上游新闻 浏览 7890

45岁董洁北京定居,自己洗衣做饭很勤劳

无处不风景love 浏览 2849
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1