去年,谢赛宁(Saining Xie)团队发布了 Cambrian-1,一次对图像多模态模型的开放式探索。但团队没有按惯例继续推出 Cambrian-2、Cambrian-3,而是停下来思考:真正的多模态智能意味着什么?大语言模型范式对于感知建模真的合理吗?
谢赛宁在推特上写道:“有些根本性的东西缺失了。你无法在构建超级感知(supersensing)之前就构建出超级智能。”这无关于更好的传感器或更高清的摄像头,而在于一个数字存在如何真正体验世界,如何吸收无尽的输入流并从中学习。正如 Andrej Karpathy 所说,对于现实世界中的 AI 智能体,感知建模可能就是它所需要的一切。
![]()
图丨相关推文(来源:X)
团队提出了一个演进分类法:从纯语言理解(第零层),到语义感知(第一层,对应“看图说话”能力),到流式事件认