关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4566人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“2025全球十大工程成就”揭晓,DeepSeek开源大模型等上榜

上观新闻 浏览 4577

白百何疑开撕王传君!曝沪圈要求文晏给男方撕奖,白百何发文内涵

萌神木木 浏览 3987

“花式”揽储:有银行送鸡蛋吸引他行储户,多家中小银行上调存款利率……

中国基金报 浏览 3508

端网深度协同,中国移动5G-A超级上行刷新移动直播体验

环球网资讯 浏览 643

暗指北控?琼斯吐槽:这比赛也太难看了,这些球员都是谁找的

懂球帝 浏览 3368

半年亏损 5800 万仍闯港交所!复星医药分拆安特金图啥?

野马财经 浏览 4286

深度搜索如何学会自我监督:来自脑科学的启发

科技行者 浏览 3362

伊朗一间谍组织被瓦解 其主要成员曾多次前往以色列

极目新闻 浏览 3331

人均预期寿命提高至80岁,失能老人如何有尊严地活着?两会代表委员建言:服务不能“一刀切”

时代周报 浏览 2516

印度空难唯一幸存者饱受PTSD折磨 至今无法与妻儿说话

扬子晚报 浏览 9783

使命、念力与品位:AI时代的人之为人

华夏时报 浏览 2711

许传智被查:在中纪委工作超30年 曾任宁夏纪委书记

界面新闻 浏览 9353

冲刺第一股,中国最大独立模型厂商的成色、能力与野心

晚点LatePost 浏览 3714

土耳其下令拘捕内塔尼亚胡 以色列外长公开回应

新京报评论 浏览 10135

豪森智能联手中科院沈自所,深化AI+制造业创新合作

财闻 浏览 4518

男子取170万元现金 在银行门口遭抢劫致重伤左眼失明

扬子晚报 浏览 18227

交通标志设置不合理致5814次"被违章" 当地:重新设置

封面新闻 浏览 9316

雅达利复刻“前竞争对手”Mattel Intellivision Sprint 游戏机

IT之家 浏览 4422

特朗普再威胁伊朗交出浓缩铀 称到手后或销毁

央视新闻客户端 浏览 628

小米新车曝光!雷军的致命子弹,射向李想和余承东

象视汽车 浏览 4401

中国曾经也有一家“OpenAI”

虎嗅APP 浏览 3997
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1