关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元763人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女生最显土的3个冬天发型,真的别留了!

Yuki女人故事 浏览 13467

KAIST AI揭秘:让AI视频生成真正理解"谁对谁做了什么"的关键技术

科技行者 浏览 454

拜仁欧冠战巴黎大名单:凯恩领衔,诺伊尔、卡尔在列

懂球帝 浏览 566

中国机会|ASML:半导体产业开放合作是主流,继续依法合规为中国客户提供坚实支持

澎湃新闻 浏览 536

欧洲区小组赛出局队全部确定:塞尔维亚、匈牙利、以色列在列

懂球帝 浏览 364

74岁张纪中与年轻妻子结婚,真的过得幸福吗

丹妮观 浏览 715

沈伯洋被指到处寻求"保护" 邱毅:"台独"分子们都慌了

环球网资讯 浏览 6121

特朗普称将会见泽连斯基 讨论防空与远程导弹援助等

新京报 浏览 846

奔驰男加塞砸车后续:车主信息被披露 3省市跟着遭殃

鋭娱之乐 浏览 78083

关晓彤与鹿晗日本过七夕节 路人曝鹿晗宠女友细节

叶公子 浏览 14425

蒋劲夫6年前片酬6900万,被扒穿LV去送外卖,一件衣服7万多!

缘木不求娱 浏览 12577

杨振宁在京逝世死因披露 与妻子翁帆最后合影流出

乌娱子酱 浏览 4222

东部战区护卫舰实兵实弹训练

环球网资讯 浏览 15763

伍伦盼:泰国队客场保障一切到位,吃得好睡得好训练场地也很好

直播吧 浏览 10739

推广|| 双11来了!好口碑国货返场,买1送20

黎贝卡的异想世界 浏览 882

月薪2万,吃不起一顿麻辣烫

市界 浏览 15549

A股缩量中阳后,下一步怎么走?分析称存在很多变量

澎湃新闻 浏览 15633

外交部回应英国所谓"中国间谍"案

环球网资讯 浏览 11705

美方公开核航弹测试画面

北京青年报 浏览 323

MIT研究发现:人工智能已经可以取代美国11.7%的劳动力

华尔街见闻官方 浏览 160

私募“五佳基” 丨盘点2024年01.02-01.05私募市场五佳基

私募荟 浏览 12738
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1