关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元5769人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

或将年内上市阿维塔全新旅行车谍照曝光

车质网浏览 4475

追觅办演唱会当年会撒贝宁主持李克勤、张信哲等献唱

极目新闻浏览 103033

50+姐姐冬季要会“叠穿”，掌握这些技巧，保暖不臃肿显高级

静儿时尚达人浏览 4803

精彩推荐

国资入主黑芝麻再进一步：国资委审批落地，约定承诺期净利润累计不低于3.15亿元

红星资本局浏览 4936

无缘提前2轮保级！武汉三镇54天不胜，6年首负新鹏城，4纪录告破

奥拜尔浏览 5683

《阿凡达3》一言难尽，好看不好吃，顶级特效盖不住影迷吐槽剧情

最爱酷影视浏览 5091

春天穿“黑色”太沉闷？学会这些搭配小技巧，显瘦减龄还洋气

静儿时尚达人浏览 2487

1.3万起！贾跃亭发布FX Navi机器狗年费3300元可持续进化

快科技浏览 1544

＂地表最难乒乓球赛＂上全运会卫冕冠军王曼昱差点输了

澎湃新闻浏览 37296

从“养儿防老”到攒私房钱，农村老人的想法变了

观察者网浏览 4140

马杜罗：美国对委内瑞拉威胁是＂老调重弹＂

国际在线浏览 5090

“工业机器人曾是日本的堡垒，但中国已开始在新轨道上竞争”

观察者网浏览 5071

昂跑藏了一张底牌

虎嗅APP 浏览 4886

＂蛋饼姐＂在菜市场跳舞走红:10平米把3个孩子供上大学

环球网资讯浏览 57859

曲协表态仅6天，郭德纲担心的事还是发生

科学发掘浏览 5093

张艺谋谍战片定档打了春节档一个措手不及

娱乐圈笔娱君浏览 4648

沪媒：上海赛更达橘橙投资人朱骏将兑现400万元冲乙奖金

懂球帝浏览 5883

鲁内跟腱断裂后，弗里茨等球员控诉ATP不顾球员死活！

网球之家浏览 5826

继与霉霉恋情谣言后，里弗斯被传约会网红

艺兔体坛浏览 4774

三种版本可选吉利银河星耀7续航信息曝光

车质网浏览 5494

E句话| 他骨灰都被人盗了？

仙女事件簿浏览 4351

奇才120-103尼克斯，巴格利18+11，亚布塞莱11分，克拉克森12分

懂球帝浏览 5594

山西多地连续阴雨致农作物发霉当地要求＂抢收抢种＂

极目新闻浏览 5961

2025年全球PC出货量近2.8亿台笔记本超2.2亿台

快科技浏览 4708

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1