关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元17人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

内娱抄了他20年,这回终于赢了

独立鱼 浏览 18305

苹果团队造访 股价涨停!恒信东方澄清

网易财经 浏览 12009

古尔曼:苹果正试图永久撤销Apple Watch美禁售令,本月见分晓

IT之家 浏览 11824

NASA准备用来自ULA的全新火箭发射美国首个私营月球着陆器

cnBeta.COM 浏览 11809

媒体:本轮巴以冲突以来美军首次遭袭身亡 背后不简单

环球网资讯 浏览 77983

修杰楷回应吴京贾静雯牵手 称自己完全信任另一半

网易娱乐 浏览 16218

不建议中年男人背的3种包包,听着洋气,实际土气,廉价又寒酸

潮人志Fashion 浏览 10422

上海业主十一出游后推开家门懵了 精装房成"化粪池"

环球网资讯 浏览 201

福建女子生下黑人女儿遭丈夫质疑 她坚称是基因突变

社会奇闻君 浏览 87172

嫌宫外卫队太吵 英国王查尔斯要求卫队安静换岗

环球网资讯 浏览 18362

你是谁?库里持续低迷13中4仅得15分6助

直播吧 浏览 12078

首搭纯电quattro 奥迪E5 Sportback售23.59万起

网易汽车 浏览 809

千人来珠峰"逛公园" 有人冻到绝望:以为要永远留在这

新京报 浏览 15535

业主车位被占后焊栏杆围车 涉事双方:局面失控 先缓缓

潇湘晨报 浏览 119288

谷歌百人“复仇者联盟”出击!将发对标GPT-4的大模型

智东西 浏览 13512

白宫:美国驻乌克兰大使馆内有“少量美军”

新京报 浏览 18030

一神奇墓地,葬着一位全才,皇帝经过都要行礼,官员必须下跪

趣看热点 浏览 25301

给机会我就表现!穆迪替补出战21分半 9中7&三6中4轰下21分!

直播吧 浏览 11758

苏芒在节目里说650一天的餐费不够用,不能接受这么差的伙食

趣看热点 浏览 26843

长沙女子双节返程 发现母亲在大米里藏了1000元现金

潇湘晨报 浏览 419

十年退保超过7000亿 是什么在驱动中国人寿保费造假?

证券市场红周刊 浏览 25554
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1