关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2278人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

李凤刚出任北京现代总经理,20 年来首次由中国本土人才代表韩方

IT之家 浏览 1992

直播电商迈步“全链条监管”

北京商报 浏览 1214

颜骏凌:和范德萨交换了联系方式,在儿时偶像面前踢球是圆梦

懂球帝 浏览 2054

创维抄袭格力,为何低级得如此赤裸裸?

正经社 浏览 1094

美国贸易代表:想和中国再谈谈 但不谈稀土

澎湃新闻 浏览 18386

央剧《生命树》播出4天,43岁杨烁口碑实现逆转

观察者海风 浏览 899

近7场1胜6负,河床近期战绩非常糟糕

懂球帝 浏览 2289

一加Ace 6T官宣:全球首发骁龙8 Gen5

快科技 浏览 1855

智己汽车2025全年销售81,017台 创历史新高

网易汽车 浏览 1373

娜扎被抢休息室,网友扒出疑似林允

萌神木木 浏览 2265

斯诺克英格兰公开赛决赛第一阶段:周跃龙2-6落后于马克-艾伦

直播吧 浏览 2981

俄称击落数十架飞往莫斯科无人机

北青网-北京青年报 浏览 1973

刚刚!利好,直线暴涨!

中国基金报 浏览 948

搭载地平线征程6E 全新MG4 530将于10月底开启交付

网易汽车 浏览 2159

白俄罗斯国防部长:边境出现“前所未有”军事集结

环球网资讯 浏览 1123

曾因"打包塑料袋10元1个"上热搜 宰客酒楼招牌被强拆

扬子晚报 浏览 29185

恩里克:我的球员今天表现得很出色,不过在结果上略有遗憾

懂球帝 浏览 1575

美客机万米高空风挡玻璃破裂 资深机长:或为陨石撞击

红星新闻 浏览 6995

美媒披露普京停火条件:基辅必须彻底放弃顿涅茨克

参考消息 浏览 2257

桑托斯3-1科林蒂安,罗埃塞点射破门,巴雷亚尔传射

懂球帝 浏览 2395

罗斯柴尔德家族现遗产之争:93岁婆婆与60岁儿媳打官司

红星新闻 浏览 18267
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1