关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2279人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

吉利陈奇:L3全场景普及仍需时间,安全与成本平衡是行业关键

网易汽车 浏览 1990

双片闪耀,北京跨年放映今日开票!

幕味儿 浏览 1311

60岁无儿无女形象大变的张卫健,经历了什么

草莓解说体育 浏览 2037

男子快递从甘肃寄到成都:直飞660公里却绕了2800公里

每日经济新闻 浏览 33265

美媒:特朗普已听取关于军事打击伊朗方案的汇报

新华社 浏览 1113

刚说完战争很快结束 特朗普改口

参考消息 浏览 4

英超积分榜:热刺伯恩茅斯分列二、三 狼队全败 维拉西汉姆5轮3分

直播吧 浏览 2610

满脸都是奔驰标!全新一代奔驰GLB官图发布

新汽车志 浏览 1527

豫媒:河南队泰国拉练只花了15万元,在当地踢热身赛一胜一平

懂球帝 浏览 1647

大型文化纪实纪录片《因为长江》定档10月27日

安徽博物院 浏览 2165

华为Sound X获HarmonyOS 6.0 Beta升级,新增AI搜歌等功能

IT之家 浏览 1550

全网最后一批躺赚博主,也被AI挤兑失业了

新周刊 浏览 2341

小鹏将推出长途增程混合动力X9,单次续航1600公里

MOTO 浏览 3086

谷歌间接承认 Tensor G5 芯片 GPU 问题

IT之家 浏览 2164

山东99-75宁波3喜1忧!高诗岩陈林坚太关键,王证神射,2外出隐患

篮球资讯达人 浏览 985

中东壕客下单:先订600台!飞行汽车海外最大订单来了

南方都市报 浏览 2360

卡塔尔:加沙可能陷入“无战无和”局面

国际在线 浏览 2032

她是在官宣恋情?她们真的恋爱了?

青杉依旧啊啊 浏览 1960

太子集团创始人陈志被遣送回国 外交部回应

财联社 浏览 11582

澳海滩枪击惊魂50分钟:枪手占据天桥向下扫射

澎湃新闻 浏览 7043

马德兴:张瑷晖因脚踝受伤没参加U23国足第二日的合练

懂球帝 浏览 1176
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1