关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2202人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

姚晨回应即将到期“赎身”!真是弹指一挥间...

犀利辣椒 浏览 1427

有了AI,课堂如何“教”与“学”?

看看新闻Knews 浏览 1892

新能源购置税免征时代,正在结束

盖世汽车 浏览 2075

强脑科技:预计未来3-5年多款脑机接口产品获得医疗器械注册证

澎湃新闻 浏览 780

留几手为闫学晶叫屈?称网友自卑敏感

小徐讲八卦 浏览 1088

上海老人落水获救 4名老人花4天完成"不打扰"的致谢

大风新闻 浏览 6701

跟队:萨尔可代表切尔西出战英联杯,但今晚不太可能出场

懂球帝 浏览 755

巴基斯坦和阿富汗同意立即停火

央视新闻客户端 浏览 2109

全智贤与《暴风圈》剧方仍未发文道歉

韩小娱 浏览 2757

挪威队主帅:我们和阿森纳达成协议,厄德高不会在世预赛出场

懂球帝 浏览 1934

成都锦里古街树木倾倒砸伤游客 目击者:树木是空心的

上游新闻 浏览 7967

跨省调查结束!被延期留置150天后,德州首富平安返岗

壹只灰鸽子 浏览 1854

八大国家队世界杯进球榜:克洛泽16球第1,大罗第2,梅西第3

懂球帝 浏览 2225

阔腿裤失宠了,今年的“显瘦小黑裤”更时髦百搭!

LinkFashion 浏览 1031

离婚真相曝光不到2月,“一言不发”的唐嫣,给娱乐圈上了一课

金风说 浏览 974

baby相隔17年同角度怼脸拍!全脸变化肉眼可见

萌神木木 浏览 127

61岁朱军近况曝光!扎根甘肃成治沙“老把式”

代军哥哥谈娱乐 浏览 1094

严屹宽老婆41岁生日,婆婆送杜若溪万元大红包

爱八卦的晓请 浏览 769

汪小菲接俩娃回北京过春节!玥儿和奶奶逛公园

地理三体说 浏览 885

一家4口爬山妻子坠亡 警方排除他杀可能:属于高空坠亡

极目新闻 浏览 20593

上海U20男足进全运8强,徐根宝:出线是第一位,成绩是硬道理

懂球帝 浏览 1978
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1