关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者913人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

这是36岁的宋茜,你敢信?

伊周潮流 浏览 16337

湖人官推:还记得去年12月浓眉爆砍55分17板3帽吗?

直播吧 浏览 14465

荷兰被中美欧同时施压急疯 高官致电北京恳请解决问题

南权先生 浏览 4355

大连海鲜成双十一最热销特产之一 海参大虾扇贝备受追捧

半岛晨报 浏览 884

事关乌克兰 美英法德四国领导人通话

每日经济新闻 浏览 4745

娱乐圈又爆大瓜,这男星彻底完了

独立鱼 浏览 12979

A股缩量中阳后,下一步怎么走?分析称存在很多变量

澎湃新闻 浏览 16042

租电版本售15.79万 乐道L60紫罗兰限定版上市

网易汽车 浏览 217

谷歌或面临分拆风险!欧盟对谷歌滥用广告垄断地位提出指控

华尔街见闻 浏览 15986

牛弹琴:美国史无前例对华下黑手 一些条款确实磨刀霍霍

上观新闻 浏览 86320

宋丹丹祝贺女儿赵婷连获2项金球奖 章子怡发文恭喜

网易娱乐 浏览 27218

山东金矿火灾起因查明,事故发生前存在多项严重违规

趣看热点 浏览 118621

特朗普签署行政令 对进口中型和重型卡车征收25%关税

央视新闻客户端 浏览 7381

美媒:美国曾以为贸易战能改变中国经济 但它错了

环球时报国际 浏览 12046

已伤缺一个多月!Shams:加兰计划在周四对阵活塞的比赛中复出

直播吧 浏览 12621

市值20亿,成长空间大的龙头,A股小而美企业名单

资本百科 浏览 13167

卫报:埃弗顿面临英超四支球队起诉,他们要求相应的经济赔偿

直播吧 浏览 16547

奥特曼无罪重返董事会!OpenAI内讧真相大白,调查结果公开

量子位 浏览 12655

美联储理事米兰再次呼吁加快降息,断言“潜在”通胀接近目标,称任期或延长

华尔街见闻官方 浏览 319

出轨、送女友进大牢,退圈四年后霍尊再度复出

除夕烟火灿烂 浏览 405

戚薇李承铉能消停点不?为圈钱上800个综艺,夫妻那点破事看腻了

娱乐圈笔娱君 浏览 1115
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1