关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者1754人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

今年冬天,流行穿得“花”一点!

LinkFashion 浏览 1392

山东加时105-99福建取4连胜,陶汉林19+10,邹阳空砍28+8

懂球帝 浏览 916

美国为何长期觊觎委石油 委专家:对美具有互补性

海外网 浏览 967

短剧男主遇上长剧男主,谁是天然帅哥谁是滤镜美男,差距一目了然

娱乐圈笔娱君 浏览 1458

曹西平告别葬礼举行,灵堂布置很温馨,小S送花篮哀悼

素素娱乐 浏览 700

当人类把经验与想象力交给机器人,具身智能如何承载新内容?

刺猬公社 浏览 677

视频:特朗普公布击沉"运毒潜艇"画面

新华国际 浏览 1542

别管怎么质疑《寻秦记》,只要古天乐、林峯在,再烂我都会买单

最爱酷影视 浏览 1233

多品牌疑"删除"张雨绮代言内容 此前其被实名举报代孕

现代快报 浏览 4463

美国政府效率部提前解散

北京商报 浏览 1433

伊朗革命卫队呼吁为真主党领导人被杀“复仇”

参考消息 浏览 1458

消费降级2年,大家2025年还会买什么?

黎贝卡的异想世界 浏览 1914

讲解员回忆杨振宁95岁来访两弹城:他说这个时代特别需要“两弹一星”精神

封面新闻 浏览 1925

塞萨洛尼基大学推出MBC:让AI大脑像U盘一样随时扩容

科技行者 浏览 655

摩尔线程:股票价格可能存在短期上涨过快出现的下跌风险

网易财经 浏览 1282

董子健带女儿现身公园玩 父女俩一见面就乐开花儿

翰林涛涛 浏览 2002

美国已正式开始出售委内瑞拉石油

新京报 浏览 851

英伟达发布新一代Rubin平台,推理成本较Blackwell降10倍,拟下半年发货

华尔街见闻官方 浏览 954

未婚未育男子将遗产留给外甥遗嘱却写错名字 法院判了

环球网 浏览 7455

300135前三季度由盈转亏!池州国资入主后大动作,沥青龙头跨界投资半导体

时代周报 浏览 1938

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

LinkFashion 浏览 726
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1