关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者4090人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

成功冲乙,厦门壹零贰陆主帅:厦门是一座有足球底蕴的城市

懂球帝 浏览 4346

乌克兰空军:一架苏-27战机在该国东部坠毁 飞行员死亡

环球网资讯 浏览 3507

美媒:未与以及时协商 内塔尼亚胡对特朗普感到愤怒

环球网资讯 浏览 57787

8500万血亏?曼联新援0射门!单刀不射痛失绝杀+伤退致队少打1人

我爱英超 浏览 4027

中国驻英国使馆发言人就英方制裁中国实体问题答记者问

网易财经 浏览 4277

与欧洲领导人通话 特朗普“言辞强硬”

环球网资讯 浏览 3564

输球后被球迷辱骂,标准列日前锋:大街上也这么跟我说话试试

懂球帝 浏览 3602

为“打击贩毒” 美军调派“福特”号航母至加勒比海

央视新闻客户端 浏览 3030

“大空头”伯里:英伟达“GPU战略”或使中国在AI竞赛中领先美国

IT之家 浏览 3499

在国家德比爆发冲突后,亚马尔社媒取消对卡瓦哈尔的关注

懂球帝 浏览 4227

皮衣+裙子、大衣+运动鞋,这4组搭配照着穿就很时髦!

LinkFashion 浏览 3020

伊朗:3117人在骚乱中死亡 2427人是民众和执法人员

界面新闻 浏览 3023

复婚无望!baby黄晓明陪小海绵零交流

八卦王者 浏览 1317

张雨绮爆雷丢工作!省媒确认她不会上春晚

FancyMusic 浏览 3069

TA:维尼修斯认为自己在球队整体表现不佳的情况下被区别对待

懂球帝 浏览 3520

母亲被父亲刺28刀死亡 11岁儿子因给父亲开门深深自责

都市报道 浏览 14699

内外设计焕新 大众朗逸Pro将于11月17日上市

车质网 浏览 3938

圣米伦夺苏格兰联赛杯,进球队员赛后采访不慎爆粗后道歉

懂球帝 浏览 3572

俄称击退乌军解围行动 乌称击退俄军进攻

国际在线 浏览 3855

亮出“小红卡”加入本地生活争夺赛,小红书不硬刚

钛媒体APP 浏览 4833

从“百模大战”到“百镜大战”,AI眼镜成新焦点丨一克商评

封面新闻 浏览 3993
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1