关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者1369人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

今日热点:电影《得闲谨制》定档;成毅回应《两京十五日》拍摄受伤……

伊周潮流 浏览 953

塞纳河“上岸”不易:20年合约、赔350万成为失信人、抑郁症也要赔钱…小偶像们那些年打过的官司

仙女事件簿 浏览 802

亏损超2亿?《用武之地》票房崩塌,我感慨:这块金字招牌算砸了

靠谱电影君 浏览 668

南亚空战启示录:枭龙碾压S400背后工业革命

浏览 4998

合纵连横更进一步,本赛季双子星同参赛无一冠军旁落!

网球之家 浏览 1402

男子50多万买66台苹果手机放平台出租 如今钱机都没了

潇湘晨报 浏览 6133

内娱白月光,毁于潜规则?

阿淫记录生活日常 浏览 1615

MiniMax把自家“实习生”放出来了!

量子位 浏览 405

规模创历史新高 2025浦江创新论坛共议科技未来

看看新闻Knews 浏览 2349

福建一无人岛垃圾泛滥 岛上有140万根玄武岩石柱群

极目新闻 浏览 1654

《红舞鞋》官微删除道歉信,司机还挑衅网友:猫也没人疼戏照样拍

萌神木木 浏览 1529

马英九首度"自嘲"回应赖清德:我还要救援几次

台海网 浏览 15937

连马斯克都盯上了这块“肥肉”

汽车公社 浏览 1254

白人女子被美国特工当街射杀 死前对峙说"我不生你气"

环球网资讯 浏览 5647

ChatGPT跟进阿福,AI健康按下快进键

海克财经 浏览 486

AI终端战事升级:大厂跨界厮杀,阿里、字节、理想同场竞速

时代财经 浏览 872

倾家荡产120万上星光大道,她如今怎样了

青橘罐头 浏览 1624

一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军

新智元 浏览 1630

D系列首款产品 零跑D19将于12月28日上市

车质网 浏览 808

你从托马斯·穆勒身上吸取教训了吗?

绿茵情报局 浏览 403

德国一公司研发无贵金属电极技术让绿氢生产又快又便宜,明年试产

IT之家 浏览 491
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1