关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4205人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

刚放行中欧班列波兰又来找事 中方接下挑战书强硬反击

文雅笔墨 浏览 40392

外媒:克宫称普京愿与马克龙就俄乌冲突对话

环球网资讯 浏览 3273

以总理内塔尼亚胡与高级官员讨论伊朗紧张局势

国际在线 浏览 2869

腾势汽车12月销售18139辆 全年累计157134辆

网易汽车 浏览 3175

丝袜称明年随心参赛无视强制参赛规则,高芙称女网更有趣更具悬念

网球之家 浏览 3960

携12大升级上市 比亚迪汉EV闪充版售价17.98万起

网易汽车 浏览 1041

揭密!中国导弹为何飞越北极圈,不走太平洋

浏览 8176

岚图冲刺港股0融资:车型“偏科”,年销目标前9月完成48.5%

尺度商业 浏览 4317

京沪高铁:一道复杂的算术题

锦缎研究院 浏览 3267

有望2026年亮相 曝法拉利首款纯电动车谍照

车质网 浏览 4165

我们为什么需要节日穿搭?

时尚COSMO 浏览 2532

申花2-0首尔获亚冠首胜!终结对韩国球队4场不胜 阿苏埃破僵+伤退

我爱英超 浏览 4174

“一言不发”的唐嫣,给娱乐圈上了一课

李橑在北漂 浏览 2997

马杜罗紧急求助普京:委内瑞拉需要导弹、雷达和飞机

上观新闻 浏览 3850

闻泰科技营收147亿的半导体资产被荷兰政府冻结

每日经济新闻 浏览 4200

美方在公海海域扣押悬挂俄罗斯国旗的油轮 外交部回应

澎湃新闻 浏览 13918

“精准”归来:戴尔正式宣布推出"Pro Precision"工作站产品线

IT之家 浏览 2160

科学家研发可遥控癌痛克星,比阿片类药物更安全

DeepTech深科技 浏览 3043

法尔克:对没拿到三分有些失望,但对曼联拿到一分也是不错的

懂球帝 浏览 3124

董路:日本队6届世界杯过不了16强 跟国足24年无缘世界杯一样痛苦

风过乡 浏览 4101

布里斯班新科亚军科斯秋克:我的关于萨巴伦卡的话被断章取义

网球之家 浏览 3093
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1