关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4325人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

姚期智:“AI+量子”将极大拓展人类计算能力边界

文汇报 浏览 5011

失业13个月 35岁巴神官宣登陆西亚2级联赛 已换13队+10年转会10次

我爱英超 浏览 3128

新角色?詹姆斯复出后或成湖人老三 变身加强版追梦更利好紫金军

罗说NBA 浏览 4158

正式官宣!31岁何猷君再传喜讯 让霍启刚刮目相看

漫婷侃娱乐 浏览 3051

腾势汽车12月销售18139辆 全年累计157134辆

网易汽车 浏览 3303

吊打内娱的阴湿女王,回来了

独立鱼 浏览 4178

以军频繁袭击 加沙"黄线"附近居民被迫再度离开家园

海外网 浏览 4100

2026春夏八大流行趋势

LinkFashion 浏览 2766

泽连斯基:俄罗斯正为更大规模冲突做准备

红星新闻 浏览 6179

媒体:在21世纪20年代 美国总统要向外派出"总督大人"

新民周刊 浏览 6765

比利亚雷亚尔下赛季预算达到2.15亿欧,创下俱乐部纪录

懂球帝 浏览 3522

强脑科技:预计未来3-5年多款脑机接口产品获得医疗器械注册证

澎湃新闻 浏览 2951

东部战区:军演是对"台独"和外部干涉势力的严重警告

央视新闻客户端 浏览 25251

热议中超:恶心国安放水,西海岸和英博值得尊重

懂球帝 浏览 4227

“中国机构是迪拜金融中心发展的关键力量”

国际金融报 浏览 4306

郭晶晶也没想到 霍启刚香港火灾后 实现口碑暴增

桑葚爱动画 浏览 3703

日本前首相石破茂再批"日本拥核"言论

界面新闻 浏览 3499

14岁女孩被同学杀害案择日宣判 被告人在庭上跪求原谅

潇湘晨报 浏览 8575

“窝囊”35年没人理!直到遇66岁迟蓬才大火

苏子Vlog一 浏览 3343

首次搭载Hi4-Z架构 全新坦克400上市售24.98万起

网易汽车 浏览 4032

美军宣布再次打击"贩毒船" 致4人死亡

环球网资讯 浏览 4055
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1