关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3389人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

央视发文悼念老戏骨许绍雄,原来这才是真实的他

娱乐圈笔娱君 浏览 3201

中国汽车出海,插混和增程将是巨大的“机会点”

汽车公社 浏览 2367

中国女足近11次对澳大利亚未尝胜绩,但在亚洲杯还没输过对方

懂球帝 浏览 1234

四部门召开动力及储能电池行业企业座谈会:规范价格竞争

界面新闻 浏览 589

精致穷,我们在为“符号消费”买单

时尚COSMO 浏览 3425

队报:马尔基尼奥斯伤病恢复慢于预期,将缺席本周法甲比赛

懂球帝 浏览 3408

女子代购海外"不老药" 疑遭职业打假人起诉"退一赔十"

大风新闻 浏览 4867

妈妈辈也能轻松穿出高级感:3个实用穿搭法则,优雅不费力

静儿时尚达人 浏览 3198

牛弹琴:中国外交干了件大事 王毅的一句话内涵很丰富

现代快报 浏览 23869

女人“会穿衣”才更美,看看这些穿搭就知道,穿对了真显气质

静儿时尚达人 浏览 1544

什么信号?利好,又要来了?!

米筐投资 浏览 1947

“锂王”炒股,赚了111万,赔掉2000亿

大猫财经Pro 浏览 1848

汇聚超千项前沿成果,第八届长三角科技成果交易博览会开幕

蓝鲸新闻 浏览 3396

达伦-本特:切尔西应该签回弟媳,他看起来依然很出色

懂球帝 浏览 2596

乌武装部队总参谋部通报:乌俄一天交战近250次

环球网资讯 浏览 3080

2026年春晚分会场官宣 周深肖战刘宇宁令人期待

你我话娱乐 浏览 1934

新设计 兰博基尼Manifesto概念车官图发布

车质网 浏览 2881

或2027年发布 全新丰田凌放Harrier谍照曝光

车质网 浏览 2620

男子夜钓遭枪击 家属:行凶者把猎枪扔河里 警方找7天

扬子晚报 浏览 7292

美国43岁母亲在学校舞会拐走女儿14岁男友 还和他生子

潇湘晨报 浏览 8844

零跑D19豪华旗舰SUV完成申报,预计4月上市交付

IT之家 浏览 2228
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1