关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者2092人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美媒:美两架军机坠入南海或与燃油无关

北京晚报 浏览 2864

小米SU7换代,或涨价2万元,都会有哪些升级?

正在说车 浏览 2383

西媒:巴萨系俱乐部在仓库存了30万件球衣,共花费400万欧元

懂球帝 浏览 1866

中国对日本政府发出第一道制裁令 暗示了高市早苗结局

时时有聊 浏览 19160

美团、京东外卖、淘宝闪购:自愿执行《外卖平台服务管理基本要求》国家标准

澎湃新闻 浏览 2667

追觅“星空计划”Nebula NEXT 01 Concept获CES官方置顶推荐

周天财经 浏览 2138

短剧泛滥成灾,燃起观众热潮与烦恼

喜欢历史的阿繁 浏览 2149

打通置换堵点!上海放大招:政府启动二手房收购

国际金融报 浏览 1868

美国突袭委内瑞拉后,这些个股推动欧股创下历史新高

第一财经资讯 浏览 2129

搭载双电机 极狐阿尔法S6四驱版或年内上市

车质网 浏览 2806

圣桐特医再度递表 财务紧绷难解

北京商报 浏览 2444

华为商城Mate 60/Pro系列配件一折促销,9.9元买官方保护壳

IT之家 浏览 2905

事关市值4700多亿元大牛股 两位首席深夜互怼"抢地盘"

每日经济新闻 浏览 19216

羊绒专场|| 如果秋冬只买一件针织衫,我一定毫不犹豫选它(已穿上)

黎贝卡的异想世界 浏览 4877

世体:弗里克奉行父亲式执教策略,阿劳霍成最新成功案例

懂球帝 浏览 1834

BaaS方案售20.8万起 蔚来ET5/ET5T远空套装版上市

网易汽车 浏览 2477

终于来了!山东签约新大外弥补内线隐患,但陈培东感冒将缺席一场

篮球资讯达人 浏览 2099

莱斯特城2-0切尔滕汉姆,帕森-达卡破门,马维迪迪锁定胜局

懂球帝 浏览 2136

李佳航、印小天拍短剧?还是穿越题材

最爱酷影视 浏览 3211

险企投资收益波动加大 业绩分化利润水平提升

证券市场周刊 浏览 3335

猛士汽车2025全年销量10228台 同比增长387%

网易汽车 浏览 2185
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1