关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4499人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

吕焯毅:我们踢得很团结有韧劲,大家都满意这场比赛

懂球帝 浏览 4294

男子快递从甘肃寄到成都:直飞660公里却绕了2800公里

每日经济新闻 浏览 35447

花400元“过家家”,Jellycat火爆看不懂?情绪消费正带来行业新逻辑

红星资本局 浏览 4434

人工巡防有盲区、适老设计待完善 人大代表呼吁AI赋能社区养老

贝壳财经 浏览 3157

有图无真相?沙特空中球场网传渲染图与官方图片不一致

懂球帝 浏览 4273

官方:麦克托米奈当选2025意大利足球盛典年度最佳球员

懂球帝 浏览 3849

李在明表态:韩国站美国一边 但要妥善处理对华关系

澎湃新闻 浏览 16281

AI时代存储“超级牛市”降临?透视A股存储核心产业链掘金逻辑

时代周报 浏览 3218

最牛退休女工,靠卖易拉罐,纳税100亿

创业家 浏览 4461

短剧《还珠》:有些明星不火,真的是必然!

海绵宝宝的心事 浏览 4127

外观设计风格独特 本田0 α原型车发布

车质网 浏览 3742

这小车也有辅助驾驶了!奇瑞QQ3EV将于2月6日上市

网易汽车 浏览 3316

FLX1s Linux 手机发布:预装基于 Debian 的 FuriOS,550 美元

IT之家 浏览 5138

科长,我啥时候才能换电脑啊?

识局 浏览 3323

跟队:纽卡vs巴萨赛前发布会上加泰记者很放松,还有人接电话

懂球帝 浏览 2540

福建女商人林惠荣提国赔申请获立案 曾服刑7年获无罪

澎湃新闻 浏览 7904

小伙去理发被店家弄到VIP房间后脸白了 联系父母要钱

1818黄金眼 浏览 13184

普京穿军装看俄白军演:试戴热成像战术眼镜 装填手枪

新京报 浏览 3901

国货统治全球:正在爆发的AI硬件市场

诗与星空 浏览 3337

350亿vs25000亿!国产模型正打破美国AI编程垄断

无相商业趋势 浏览 3227

马斯克最担心的事情来了,阿里投资了核电站!

花朵财经 浏览 3316
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1