关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3207人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

奔驰2026年大动作: 推15款新车 AI智舱/智驾将覆盖全系产品

网易汽车 浏览 2112

普京警告欧洲勿阻挠和谈:如果欧洲想打 我们准备好了

澎湃新闻 浏览 2413

笑掉大牙!日票房仅199万,黄晓明的新片,被“小李子”打懵了

温柔娱公子 浏览 3049

五季以来,第一个退出《再见爱人》的嘉宾出现了

仙女事件簿 浏览 3063

欧盟行业代表:中方出手反制欧盟 法国这一次受伤最重

澎湃新闻 浏览 30508

奔驰A级车延至2028年,新车型同步推进

MOTO 浏览 3791

日本宣布从南鸟岛海域采掘到含稀土的淤泥 外交部回应

环球网资讯 浏览 5309

新能源车双税新政发布,郑州消费者该“下手”还是“等等”?

大象新闻 浏览 3267

黎真主党发射火箭弹 回应以违反停火协议

环球网资讯 浏览 342

内饰配置再提升 新款极氪X内饰官图发布

车质网 浏览 2790

全新宝马X5更新归来!起售价下探至不足60万,轴距超3米1,很亲民

小史谈车 浏览 1848

应聘者被骂「吃的不如狗」?格力回应;市占率存疑?影石回应市占率下滑及大疆价格战;零跑汽车辟谣将被一汽集团收购:消息不实丨雷峰早报

雷峰网 浏览 2836

特朗普警告:如果以吞并约旦河西岸 将失去美所有支持

鲁中晨报 浏览 8655

性价比最高的MacBook来了!苹果把iPhone处理器塞进笔记本里

快科技 浏览 3143

对话郝飞:智能座舱新物种 斑马为端芯片带来的新机遇

网易汽车 浏览 3287

转行当吉他手?科纳特被罗梅罗蹬到后,做出吉他里的扫弦动作

懂球帝 浏览 2393

流落柬埔寨的福建女网红和家里通话 问"何时来接我"

极目新闻 浏览 8413

业务调整、AI广泛应用,印度IT业“无声裁员”冲击数万岗位

环球网资讯 浏览 3263

云迹科技通过IPO备案:营收2.5亿估值41亿 腾讯阿里沸点是股东

雷递 浏览 3714

起底西贝供应商:同款冷冻西兰花和海鲈鱼还卖给了谁

界面新闻 浏览 15774

大衣,白色的更优雅不凡!

Yuki女人故事 浏览 1793
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1