![]()
这项由香港科技大学(广州)廖晨飞领导,联合上海交通大学、东北大学等多所知名院校开展的研究发表于2025年10月,论文编号为arXiv:2510.07143v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们用手机拍照时,一张高清照片可能包含几百万个像素点。对于人工智能来说,处理这样的图片就像让一个人同时记住一本百科全书的每个字。为了让AI能更快地"看懂"图片,科学家们开发了各种复杂的压缩技术,就像试图发明更高效的速记法。然而,研究团队却发现了一个令人意外的现象:最简单的方法——直接把图片缩小,竟然比那些精密复杂的压缩算法效果还要好。
这个发现就像发现用普通菜刀切菜比昂贵的多功能切菜器更好用一样令人震惊。研究团队意识到,问题可能不在于压缩技术本身,而在于我们用来测试这些技术的"考题"有问题。就好比用小学数学题来测试计算器的性能,无论多么先进的计算器,在简单题目面前都显不出优势。
一、现有评估体系的隐性问题
多模态大语言模型就像一个既能看图又能读文的超级助手。当它处理图片时,需要将图像分解成无数个小块,每个小块都是一个"