关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4203人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

告别巨舰,轻舟竞发:EXO成员的单飞远征时代

仙女事件簿 浏览 3456

ESPN:德容已与巴萨就续约达成协议,他的薪水将降低

懂球帝 浏览 4076

非洲杯决赛裁判组:主裁来自民主刚果,VAR裁判来自加蓬

懂球帝 浏览 3032

控股股东拟出让超1亿股!川股德龙汇能筹划控制权变更 今年股价涨幅近60%

红星资本局 浏览 4119

真我售后网点增至 815 家,GT8 Pro 将是同档“最香”旗舰机

IT之家 浏览 4086

今日热点:ador或将拒绝newjeans另外三人回归#;徐晟津就星辰大海睡觉道歉……

伊周潮流 浏览 3809

全新丰田凯美瑞上市!售价亲民,全新外观年轻动感,搭载2.5L双擎

小史谈车 浏览 3181

伊朗一边见普京一边提方案 美国闭门研判不给准信

齐鲁壹点 浏览 973

谁是中国第一吐槽役?

仙女事件簿 浏览 4124

京东卖车翻车:汽车电商为何屡战屡败?

天天汽车 浏览 3608

将于北京车展首发 奕境旗下首款量产车路试谍照曝光

网易汽车 浏览 3064

特朗普"闯祸"泄露军事机密:美军要重返阿富汗对付中国

文雅笔墨 浏览 24072

2025年全国居民健康素养水平达到33.69%

央视财经 浏览 3131

一架无人机保护区拍鸟群致鸟摔死 无人机被人悄悄捡走

中国新闻周刊 浏览 10914

2026款比亚迪海豹05 DM-i上市 售价7.98万元

车质网 浏览 3650

被判赔偿220万元 海底捞"小便门"当事人登报道歉

上观新闻 浏览 13445

星光730灵犀动力获中汽中心高品质混动认证等奖项

网易汽车 浏览 3931

梅德维德夫晋级中网男单八强

体坛周报 浏览 4705

豆瓣逆天9.6,世间再无如此大师云集的神作!

幕味儿 浏览 3317

茅台投资SpaceX是假,投资它是真

一点财经 浏览 2807

华为,最新发布!易烊千玺点赞!

中国基金报 浏览 3295
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1