关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4204人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

那些含金量十足的大师赛,都有德约的身影!

网球之家 浏览 3182

汪小菲罕见亲晒儿子正脸照,眉眼像极了大S,凸牙问题还没改善

萌神木木 浏览 4194

50多名女性被"完美老公"骗数千万 女子:还发生了关系

新京报 浏览 9068

范曾与女儿、继子断绝关系 其与妻子新公司本月刚成立

红星新闻 浏览 20262

销量持续回暖,谁说燃油车不行了?

汽车公社 浏览 4122

二排有大屏还有高阶辅助驾驶 风云T9L明年一季度上市

网易汽车 浏览 3350

继弯刀裤,阔腿裤之后,“围裹式长裤”突然大火!

LinkFashion 浏览 1305

最「可爱」的全新酷路泽 FJ 上线,这真不是方程豹在日本失散的兄弟?

爱范儿 浏览 4037

辽宁98-86送北控3连败,威尔斯31+7,廖三宁9中9空砍22+7

懂球帝 浏览 3429

国家放大招了,一口气画了10个圈!

米筐投资 浏览 4025

上海AI实验室开源书生万亿科学大模型Intern-S1-Pro

IT之家 浏览 2829

韩安冉回应账号被封:辜负大家的期待,对自己来说是件好事

扒虾侃娱 浏览 3154

他靠演反派爆火却对同事女儿一见钟情

张发林 浏览 4800

厄德高谈晋级世界杯:这种感觉无法用语言形容,简直疯狂至极

懂球帝 浏览 3841

“咨询行业的黄埔军校”,又被罚了

财通社 浏览 3042

在场-40遭20岁超星碾压:33岁奥迪14中5吞惨烈一战 重返NBA搁浅?

颜小白的篮球梦 浏览 4205

傍上 “新中式”,现制酸奶能迎来 “二次爆发” 吗?

餐饮老板内参 浏览 3386

罗马诺:鲍勃转会富勒姆谈判进最后阶段,曼城坚持要3500万镑

懂球帝 浏览 2964

国乒男团3-0复仇韩国晋级四强,梁靖崑3-0横扫安宰贤

懂球帝 浏览 848

伊姐周日热推:电视剧《吴邪私家笔记》;电视剧《灼灼韶华》......

伊周潮流 浏览 4970

销量、价格双双坍塌,二线豪华品牌,已经被国产新能源“挤垮”了

小李车评李建红 浏览 3615
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1