关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者2065人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小米通报与“大熊”合作处理结果:辞退涉事经办人员

三言科技 浏览 2146

NBA战报:猛龙110-99骑士取NBA8连胜,英格拉姆37+7+2

懂球帝 浏览 2755

强化AI编程能力迎战谷歌!OpenAI发布GPT-5.2-Codex,软件工程和网安一把抓

华尔街见闻官方 浏览 2465

票房从57.7亿跌到1.28亿,我感慨:这块金字招牌算是砸了

靠谱电影君 浏览 2636

今年春天最美搭配:西装+半裙,怎么穿都好看!

LinkFashion 浏览 1301

AI时代存储“超级牛市”降临?透视A股存储核心产业链掘金逻辑

时代周报 浏览 1900

招股书里的MiniMax:当聪明人决定不再为巨头打工

华尔街见闻官方 浏览 2361

范志毅:U23国足半死不活的踢法世界最先进最科学 对手不会踢了

念洲 浏览 2071

特朗普提出将美国军费提升至1.5万亿美元

澎湃新闻 浏览 2128

下一代丰田GR卡罗拉或搭全新2.0T四缸发动机

车质网 浏览 2965

迪丽热巴:从流量到实力,她还能走多远?

伊周潮流 浏览 2553

印度商人:有中国就不怕美国加税 中印本应并肩作战

澎湃新闻 浏览 8046

美拉德+黑蓝白,太好看了!

Yuki女人故事 浏览 3658

演习第2天 东部战区组织实弹射击

央视新闻 浏览 2231

日供低至23元!车市开年遇冷,车企打响“金融战”

国际金融报 浏览 1887

英媒:面对美国 欧洲领导人"必须学会反击"

环球网资讯 浏览 7336

海AI实验室团队揭秘:LLM训练新招数让AI学习效率提升36%

科技行者 浏览 1906

号称追星不用背相机:OPPO官宣哈苏专业影像套装,含增距镜、手柄

IT之家 浏览 3242

光线传媒:前三季度净利润同比增长407%

网易财经 浏览 3000

《一路繁花2》要封神?5位综艺强者登场,预告连刷4遍不过瘾

娱乐圈笔娱君 浏览 3182

首次庭审细节披露:马杜罗声音洪亮 称自己是战争囚犯

看看新闻Knews 浏览 5839
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1