关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2995人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

于文文贵州演唱会晕倒,曝被救护车拉走,连轴演出引粉丝担忧

扒虾侃娱 浏览 1815

11国做出选择后特朗普喊话"中国将服软" 高市处境堪忧

胥言 浏览 7751

特朗普"闯祸"泄露军事机密:美军要重返阿富汗对付中国

文雅笔墨 浏览 22811

小鹏 P7+ 汽车累计交付 8 万台

IT之家 浏览 3143

售7.29万 第4代帝豪全球400万纪念款新车型上市

网易汽车 浏览 2154

业务调整、AI广泛应用,印度IT业“无声裁员”冲击数万岗位

环球网资讯 浏览 3263

中企在非洲因环境问题引争议 遭800亿美元天价索赔

澎湃新闻 浏览 40244

伊朗总统最新表态:将重建核设施

政知新媒体 浏览 2878

李凤刚出任北京现代总经理,20 年来首次由中国本土人才代表韩方

IT之家 浏览 2920

苹果发布iPhone 17e

澎湃新闻 浏览 1319

从“土三轮”到“全球潮品”,这里的“三蹦子”何以“闯世界”

新华社 浏览 3072

大爷拍"素颜巴黎"火了:欧洲行费用1万多 不会说英语

极目新闻 浏览 12783

35岁郑爽近照曝光!脸部又僵又肿网友直呼认不出,彻底成了素人

萌神木木 浏览 2200

深圳“清朗”行动发布通报:查处一批恶意营销、滥用AI账号

南方都市报 浏览 2168

年代犯罪剧又出王炸!才播3集热度第一,张家辉演技惊艳四座

娱乐圈笔娱君 浏览 3754

止步“五连涨”!美股12月“开门黑”

中新经纬 浏览 2553

广东晋级决赛杜锋谈辽粤大战:广东后场接过接力棒,传承篮球使命

篮球资讯达人 浏览 2998

不愧牛市!证券公司赚疯了,有人利润翻5倍

说财猫 浏览 2297

埃迪-豪:弗兰克的球队无球时很有侵略性;英联杯对我们很重要

懂球帝 浏览 2990

2025款奔驰GLB 220典藏版上市 售价34.99万

车质网 浏览 2255

E句话| 马尔福已经成了马年吉祥物?

仙女事件簿 浏览 1781
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1