关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者110人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

机主称手机莫名被停机超半个月 运营商:号码为高风险

红星新闻 浏览 8107

42岁陈冠希彻底放飞自我,绑粉色蝴蝶结穿绣花鞋

叶公子 浏览 14004

你是真狠啊!威少飞身抢板 布伦森左手给了他脸一巴掌

直播吧 浏览 12179

净资产一天内增长77亿美元!印度富豪阿达尼风波后重当亚洲首富

环球网资讯 浏览 12459

陈绮贞回应钟成虎控诉:音乐是我们相识的最初

网易娱乐 浏览 16304

小维阿:马赛的压力不让我意外,我在尤文效力过

懂球帝 浏览 104

中国基站现身阿布扎比 可远程遥控远在珠海的无人艇

枢密院十号 浏览 91964

影后再不努力,名气就被13岁帅儿子赶超了

Yuki女人故事 浏览 1246

原来牛仔裙才是春夏最减龄的单品

Yuki时尚酱 浏览 18386

谷歌推出开源全栈NPU新架构,旨在实现大模型在终端的低功耗运行

DeepTech深科技 浏览 465

多地突然取消!小地方,不配办马拉松了?

西部城市 浏览 314

前阿根廷主帅萨维利亚被紧急送医,因马拉多纳的离世伤心过度

趣看热点 浏览 25680

普里戈任坠机残骸上疑有弹孔 或与防空导弹有关

界面新闻 浏览 14179

科大讯飞发布星火V3.5大模型,董事长称“底座大模型需要国家队”

蓝鲸财经 浏览 12074

41岁宋慧乔现身米兰看秀 纯素颜出镜状态好

巧百搭 浏览 19142

这瓜是反转了吗?

麻辣婊 浏览 12409

关晓彤照片打码 不敢大方和鹿晗秀恩爱?

传媒一班 浏览 15422

大S工作室发律师声明 起诉张兰汪小菲侮辱诽谤

网易娱乐 浏览 14799

美国驻伊拉克埃尔比勒领事馆附近发生爆炸

财联社 浏览 12044

伍伦盼:泰国队客场保障一切到位,吃得好睡得好训练场地也很好

直播吧 浏览 10430

《墨雨云间》:男主王星越特别稳,冻龄陈乔恩演坏继母看点十足

最爱酷影视 浏览 10535
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1