关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4323人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

官方出手,这一次谁也救不了狂妄自大的张雪峰?

小娱乐悠悠 浏览 3576

2025 年最强太阳耀斑爆发,引发非洲和欧洲多地无线电中断

IT之家 浏览 3983

120公里时速L3破局:广汽昊铂A800引领智能驾驶新赛道

澎湃新闻 浏览 3655

图宾根大学等机构突破:AI实现模块化人体动作分解与合成

科技行者 浏览 3104

撤市、召回!和黄医药引进药品存继发性恶性肿瘤风险,公司:现有患者应立即咨询主治医生

时代周报 浏览 2361

美顶级战机制造商干涉台湾被大陆制裁 进入"慢性死亡"

博览历史 浏览 6703

以军一天内93次袭击加沙致70人死亡

国际在线 浏览 4379

以色列暗杀伊朗核专家 细节披露

每日经济新闻 浏览 3569

埃迪-豪7次面对伯恩茅斯场均积分0.7分,仅比对阵曼城、红军更多

直播吧 浏览 5010

13日凌晨!成都一小米SU7发生交通事故后起火

网易汽车 浏览 3639

委专家:马杜罗戴着镣铐受审 新的政治现实在委已出现

中国新闻周刊 浏览 9384

AI抢产能、车厂抢内存,这场博弈中国车企如何破局?

百姓评车 浏览 3049

雷军,这次不对劲

创业家 浏览 4091

报道:哈塞特势头不稳,特朗普一些亲信推举沃什当美联储主席

华尔街见闻官方 浏览 3543

美H-1B签证申请费猛增至10万美元 印度政府发出警告

澎湃新闻 浏览 21903

AI眼镜,大厂第一战

脑极体 浏览 3690

女子1天接五六通催收电话崩溃:欠钱的是不熟的前同事

环球网资讯 浏览 37529

抗衰赛道持续扩容,Swisse PLUS能否成为健合集团(01112)的增长引擎?

猛犸资本局 浏览 3946

徐尚:徐彬能去欧洲我们肯定大力支持,李昊杨希去留再议

懂球帝 浏览 3157

综合续航超1500km 加方盒子车身 智己LS9即将上市!

车品 浏览 3936

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者 浏览 4070
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1