关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3321人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

德邦快递实力夺魁:斩获中国跨境电商物流“头程物流标杆企业”奖项

中国经济时报 浏览 2801

MINIMAX:2025财年收入7900万美元 年度亏损18.7亿美元

网易财经 浏览 1515

集微咨询发布《2025中国电源管理芯片行业上市公司研究报告》

爱集微 浏览 2529

打造全球好物“首发首秀地”,东方购物白玉兰直播间首度亮相第八届进博会

上观新闻 浏览 2512

声音更加动听 本田全新一代混合动力系统最新消息曝光

乐选爱车 浏览 2242

Thinking Machines人事风波全复盘:冲刺500亿美元估值添变数

DeepTech深科技 浏览 2111

翁青雅被官媒点名,不是夸是批评,言辞直戳其肺管子!

娱乐圈笔娱君 浏览 3096

为打造本地生活超级入口 高德再推新招提升平台活跃度

贝壳财经 浏览 2270

爱优腾芒长剧阵地战

海克财经 浏览 2024

美利坚金融核爆:三杀困局与帝国黄昏

浏览 6926

主播让弗洛伦齐向拉齐奥打招呼,弗洛伦齐:永远不会

懂球帝 浏览 3262

小伙贷款30万炒"数字藏品" 共70多万充进平台打水漂

环球网资讯 浏览 5970

委内瑞拉谴责美军扣押委油轮:国际海盗行为

环球网资讯 浏览 2608

特朗普:“国际部队”将进驻加沙地带

每日经济新闻 浏览 3095

单眼皮、矮个子、微胖,停止焦虑!普通女孩的美丽指南请收好

Yuki女人故事 浏览 1986

女子被判向出轨丈夫公开道歉15天 道歉视频引万人围观

大风新闻 浏览 12901

大型文化纪实纪录片《因为长江》定档10月27日

安徽博物院 浏览 3287

工信部副部长:我国家电、家具等100多个品类产量全球第一

IT之家 浏览 2866

国庆"被弃高速"的小狗主人找来了 主人:不是故意丢弃

红星新闻 浏览 18985

金融文化实践录丨深耕特区发展沃土 厚植金融文化根基

证券市场周刊 浏览 3060

太好看了!!!「镖人」把我看激动了!

吐槽电影院 浏览 1479
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1