关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者0人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

国企6382.5万买沥青变"水和空气" 沥青是否存在过成谜

上游新闻 浏览 6507

品牌旗下首款纯电SUV Jeep Wagoneer S先行版发布

网易汽车 浏览 11764

五粮液第三季度营收、净利润同比分别下降52.66%、65.62%

红星资本局 浏览 1299

警方通报小米成都车祸: 驾驶员涉嫌酒后驾驶

网易汽车 浏览 1548

欧拉全新SUV亮相,或叫“欧拉5”?

电动邦 浏览 2229

从负债几百万,到霸榜粮油,抖音直播间隐藏着农业产业带的崛起

锦缎研究院 浏览 2033

突发!邓建华被查

中国基金报 浏览 19830

报道:哈塞特势头不稳,特朗普一些亲信推举沃什当美联储主席

华尔街见闻官方 浏览 674

皮尔斯-摩根为节目预热:梅西会追随C罗的脚步去沙特吗?

直播吧 浏览 18920

又美又飒!90后退役女兵成全国首个消防女飞行员

环球网资讯 浏览 20496

特朗普要重启核试验引巨大争议:因中国五年内可赶上

澎湃新闻 浏览 1277

加速进化抢单“双11”

北京商报 浏览 1252

今年将上市 阿尔法·罗密欧首款纯电SUV Milano谍照

网易汽车 浏览 13218

车市“价格战”引发连锁反应:二手车保值率持续性下降

21世纪经济报道 浏览 18566

京东互联网医院再发力,疾病标准化诊疗路径增至317种

海克财经 浏览 574

谁说了算?泰伦-卢赛前说哈登可以出战,快船官方说卢说错了

懂球帝 浏览 693

1万亿订单再加3500-5000亿美元!OpenAI“停不下来”,“当你欠每家数千亿美元,钱的问题自己会解决”?

华尔街见闻官方 浏览 1565

周慧敏疑回应与倪震离婚的传闻:我和先生欢迎你

素素娱乐 浏览 19825

最火的赛道,独角兽撑不下去了?

中国新闻周刊 浏览 532

诺贝尔奖得主:镰田大地离队我会心碎,他若续约我会把奖牌送他

直播吧 浏览 19593

张颂文新剧《猎冰》演大毒贩,女主竟是任正非女儿

贵妃爱娱圈 浏览 20454
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1