关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2798人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

印尼总统:已准备好向加沙派遣维和部队

环球时报国际 浏览 3504

男子"手搓"小船带着儿子游太湖被困:船刚开出一公里

上游新闻 浏览 21101

中国人寿前三季归母净利润超1678亿元,高基数基础上同比增60.5%

证券市场周刊 浏览 2790

全新Q05/A06/Q07带动 长安启源11月销量46909辆增长31%

网易汽车 浏览 2372

9家车厂推出“7年低息”,今年车市开局就恶战

汽车公社 浏览 1606

市场关键时点前夕,伦敦金属交易所交易一度中断两小时,铝锌等金属受影响

华尔街见闻官方 浏览 765

威胁要对盟国加征关税后 特朗普亲率代表团出席达沃斯

澎湃新闻 浏览 11374

资负统筹,多元发展,中国人寿前三季度新业务价值强劲增长41.8%

证券市场周刊 浏览 2792

经历168小时返程5次改机票 滞留邮轮上旅游团终于回家

极目新闻 浏览 31395

巴特勒临时休战引热议!勇士官方评论区炸锅:被交易还是有急事?

罗说NBA 浏览 1833

王健林“限高”已取消,万达知情人士最新回应

红星资本局 浏览 3402

福建一摄影大赛一等奖作品被质疑用AI生成 主办方回应

环球网资讯 浏览 23934

阿里云计算如何让大语言模型吃得更聪明

科技行者 浏览 1781

茶里回应欠薪:大部分在职员工欠薪兑付已完成,离职员工欠薪问题正分批解决

红星资本局 浏览 1800

盒马不吃回头草

蓝鲸新闻 浏览 3399

法尔克:水晶宫确实非常难对付,如果能保持零封就更完美了

懂球帝 浏览 2236

配全新双联屏 红旗HS6 PHEV将11月15日预售

车质网 浏览 2695

2025年全球PC出货量近2.8亿台 笔记本超2.2亿台

快科技 浏览 1849

厦大EMBA,四维一体、育见未来

经理人杂志 浏览 2898

38岁的陈晓让整个娱乐圈“沉默”了?

包饺子ai剪辑 浏览 2549

奇瑞QQ3量产版曝光! 轴距2米7配8155芯片

Ai爱车 浏览 2018
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1