关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者1969人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

谁说冬天不能穿裙子?照着搭美出新高度

LinkFashion 浏览 1107

外观设计微调/功能升级 新款山海T2将于四季度上市

网易汽车 浏览 2777

赫罗纳3-3皇家奥维耶多,比尼亚斯破僵,戴维-卡尔莫扳平比分

懂球帝 浏览 2074

郑丽文上任3天《人民日报》发文促统 郑丽文判断没错

时时有聊 浏览 7416

37岁的赵丽颖“消失”5个月后一反常态?

小椰的奶奶 浏览 2207

低价“银行直供房”激增,有房产价格低于市价25%

第一财经 浏览 1931

剖析一路繁花2:何赛飞心不坏只是太真实,真正精明的另有其人

娱乐圈笔娱君 浏览 1948

一城商行支行行长离开原岗位13年后被查

湘财Plus 浏览 978

半场-马竞0-0马洛卡 汉茨科造点阿尔瓦雷斯失点

直播吧 浏览 2405

河南田地积水玉米发霉 农民:夏天求的雨下在了秋天

经济观察报 浏览 7920

上海老人落水获救 4名老人花4天完成"不打扰"的致谢

大风新闻 浏览 6702

2025秋冬一定要拥有的4款包包,怎么搭都好看

Yuki女人故事 浏览 1735

超长续航+高阶智能NOA,极狐全新阿尔法T5预售12.38万起

HiEV 浏览 2291

男子应聘船员出海严重晕船自缢:一吃就吐 甚至用头撞墙

极目新闻 浏览 7330

‍22个观众,首日票房仅825元,这部国产烂片被《731》打惨了

靠谱电影君 浏览 2744

罗马诺:尤文等5队有意明格萨,塞尔塔目前不想将其出售

懂球帝 浏览 1052

男子为女儿买房花30万装修 如今却站在门口不敢进去

1818黄金眼 浏览 31378

蔚来ES9四月发布!车长近5.4米-比林肯领航员还大

网上车市 浏览 1064

AI如何助力空调“降温”过程中更节能,珠海这场论坛揭秘

南方都市报 浏览 2212

美防长抨击美军士兵肥胖后 一张照片火了

环球网资讯 浏览 6523

宗馥莉,抛弃娃哈哈?

豹变 浏览 2846
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1