关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者3006人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

李梓萌骗人真相大白,幕后黑手被揪

近史博览 浏览 3100

货拉拉跑腿骑手取走万元苹果手机后失联 手机店主发声

红星新闻 浏览 8323

河南村庄设环保监测点发通知限制燃油车进村 当地回应

大风新闻 浏览 15491

小鹏汽车正式登陆卡塔尔 多款产品亮相

网易汽车 浏览 2273

Anthropic指控DeepSeek等中国AI大模型抄袭 遭马斯克贴脸开骂:贼喊捉贼 大规模窃秘数据

快科技 浏览 1394

女网红被"开盒"收大量骚扰信息全家被迫搬离 本人发声

环球网资讯 浏览 23085

南博"伪作"被估价8800万 国家级调查组下场后谜题浮出

新民周刊 浏览 6163

建立互信和实现共赢,解读国有车企高层为何密集拜会任正非?

百姓评车 浏览 3903

闻泰科技营收147亿的半导体资产被荷兰政府冻结

每日经济新闻 浏览 3193

香港闹市发现二战时期美军投射炸弹 耗时12个小时拆除

新民周刊 浏览 25632

法国展示“凯撒”自行榴弹炮 承诺继续向乌交付

环球网资讯 浏览 3091

到底什么人还在买油车?终于我悟了

汽车公社 浏览 2556

张朝阳缅怀杨振宁:他是大神 在物理学家中排第一

极目新闻 浏览 6868

请“村长”当副总裁、拿下7000台订单,何小鹏:汇天飞行汽车2026年将量产

时代财经 浏览 3227

美国在委内瑞拉附近水域拦截第三艘油轮

界面新闻 浏览 2301

被京东狠狠拿捏了!春节砸13亿给一线员工发红包

雷科技 浏览 1867

千人来珠峰"逛公园" 有人冻到绝望:以为要永远留在这

新京报 浏览 19356

演员孙涛告别春晚:18次登春晚,把舞台给年轻人

素素娱乐 浏览 1904

樊振东参加英超名人堂球员二选一挑战,最终选择贝克汉姆

懂球帝 浏览 2419

又一黑马大剧《表妹万福》来袭,宋祖儿撒娇追夫

动物奇奇怪怪 浏览 3210

马自达EZ-6官降2万!起售价低至11.98万元

车评网 浏览 2925
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1