![]()
当我们观看一部电影时,眼睛能够自然地追踪画面中每个物体的运动轨迹,无论是飞翔的小鸟、行驶的汽车,还是随风摇摆的树叶。但对于计算机来说,要从单个摄像头拍摄的视频中准确理解每个像素在三维空间中的运动,一直是个巨大的挑战。最近,香港科技大学的研究团队在这个领域取得了重大突破,他们开发出一个名为TrackingWorld的系统,能够像拥有超强记忆力的侦探一样,从单目视频中追踪几乎每个像素的3D运动轨迹。
这项由香港科技大学卢嘉豪、熊维涛等研究人员联合中国科学技术大学、香港中文大学、香港大学、厦门大学和澳门科技大学共同完成的研究,于2025年12月发表在第39届神经信息处理系统大会(NeurIPS 2025)上,编号为arXiv:2512.08358v1。对于想要深入了解技术细节的读者,可以通过该论文编号在学术数据库中查找完整研究报告。
一、破解视觉追踪的双重难题<