爆点资讯

这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究，发表于2025年10月8日，编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时，就像评判一个学生的学习成绩一样，需要用一套标准化的考试题目来测试。在AI领域，这些"考试题目"被称为基准测试。然而，加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题：我们用来评估AI模型的这些"考试题目"已经严重过时了，就像用十年前的地理课本来考今天的学生，问的还是"世界人口最多的国家是中国"这样的问题，而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现，在五个广泛使用的AI评估基准中，竟然有24%到64%的问题答案都已经过时。更糟糕的是，那些能够给出最新、最准确答案的先进AI模型，反而在这些过时的测试中被扣分，就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于，它第一次系统性地揭示了AI评估领域的这个盲点。想象一下，如果我们一直用错误的尺子来衡量物品长

加州大学圣地亚哥分校发现：AI评估基准存在滞后性

富勒姆出价3...

最圆最近！年...

回击特朗普 ...

活塞125-...

户外消费掀新...

大一新生开学...

极兔速递三季度包裹量76.8亿件，同比增长23.1%

基于电动化平台打造宾利全新SUV预告图发布

中国色特别策划 | 故宫技艺与古意新生

一路繁花2：刘嘉玲夸王家卫，何赛飞装都不装了

趁换代前“捡漏”30万豪华中型SUV之选

委内瑞拉防长：特朗普封锁加勒比海域是“妄想”

CBA疯狂一夜！争冠形势大乱：北京送广东首败，助攻广厦升至第一

媒体：日本挖到＂稀土＂想刺探中方反应中方回一句单句

雅达利复刻“前竞争对手”Mattel Intellivision Sprint 游戏机

iPhone Air 2已在路上：升级2nm芯片补齐影像续航短板

海外收入占比低远信储能赴港IPO

传祺向往S9上市，四驱+华为全家桶+宁德电池

以总理＂碰瓷＂中国媒体：找错了对象更开错了药方

比速腾L略小入门级的全新速腾S将发布

在国家德比爆发冲突后，亚马尔社媒取消对卡瓦哈尔的关注

苏州造车新势力Kosmera跑车亮相CES 2026

谷歌IMO金牌级Gemini 3深夜上线！华人大神挂帅，OpenAI无力反击

李湘王岳伦酒店同住引热议，女儿成和解纽带？

伊姐元旦热推：电视剧《人之初》；电视剧《轻年》......

晚点独家丨理想调整基座模型业务：詹锟接手，VLA 研发整合

泽连斯基称乌将在柏林和哥本哈根设立武器出口办事处

财经早餐：英伟达50亿美元收购英特尔股份；美股三大指数齐创历史新高

烂番茄68％，《阿凡达2》导演的套路失灵了

这一天：杨幂蚂蚁腰无敌了，赵丽颖生图抗打，陈坤咋长这样了