关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元119人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

郎朗晒全家福庆生 与德国岳父同框2岁混血儿子吸睛

偶像说 浏览 15439

胡杏儿曝肚中宝宝现重为4.5斤 有机会将回TVB拍剧

网易娱乐 浏览 26011

一加 15 真机曝光,设计风格延续一加 13T

IT之家 浏览 804

方寸间也能尽显时尚品味?系条丝巾试试

时装LOFFICIEL杂志 浏览 18428

拒增加议员津贴后 米莱被指给自己和内阁高官加薪48%

参考消息 浏览 69073

媒体:想拉拢印度在俄乌问题上倒向西方 岸田或放大招

直新闻 浏览 112181

田馥甄高调现身香港!喊话期盼内地演唱会,评论区留言笑发财了!

娱乐白名单 浏览 10080

以高官不满拜登“没全力”支持以军:换成特朗普会更好

环球时报国际 浏览 11674

记者:快船将普雷斯顿合同保障日期从7月8日推迟至7月19日

直播吧 浏览 15090

AI深度伪造引发担忧!大选临近美FBI、NSA正严阵以待

财联社 浏览 11772

陈赫首次晒大女儿正脸照,长相酷似张子萱

趣看热点 浏览 25307

4-1!中国男足大反弹,一举终结2连败,15岁小将大四喜,出线有戏

侃球熊弟 浏览 184

奇克:欧冠赛场任何事情都可能发生 切尔西有能力一直赢下去

直播吧 浏览 18616

AMI的新·极简主义|2024春夏巴黎时装秀

芭莎男士 浏览 15534

一轮有望创历史新高的“鸡周期”来了?

华尔街见闻 浏览 18214

克宫:卢卡申科与普里戈任有20年交情 自愿当调停人

环球网资讯 浏览 14812

经纪人:公平地对待库明加 考虑当下就给球员选项 考虑未来就加钱

直播吧 浏览 881

普里戈任被指保留了一些档案 瓦格纳或将揭露腐败官员

红星新闻 浏览 86776

霍尊前女友涉嫌敲诈勒索案新进展:已移交检察院

家庭小医师 浏览 16071

采用第二代设计语言 领克07 EM-P谍照曝光

车质网 浏览 11968

大连有梅花鹿连续2天攻击游客 受伤女子:我没招惹它

极目新闻 浏览 18388
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1