关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者1691人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

周定洋自宣离队!媒体人热议:已经在深圳,非得不做英雄太可惜

奥拜尔 浏览 676

用重罚来逼迫商家“限价”,京东在焦虑什么?

斑马消费 浏览 1694

“官僚主义”缠身的亚马逊,开始被多面夹击

虎嗅APP 浏览 1446

短剧版《小巷人家》,为什么难成下一部《父母爱情》?

仙女事件簿 浏览 953

【中超】恩里克2球迪力穆拉提世界波 梅州1比4玉昆

体坛周报 浏览 1705

王健林限高已解除,虚惊一场?

财视传播 浏览 2314

长安启源全新 Q05 车型 11 月 21 日上市,纯电续航 506km

IT之家 浏览 1537

曼联传奇警告梅努绝不能租借离队

绿茵情报局 浏览 705

站在2025年底,小红书商业正跨过一个新门槛

36氪 浏览 1045

湾芯展顶流新凯来:当“隐形基建”浮出水面

北京商报 浏览 1831

李平康:国安在谈一名东欧外教,其人在北京&还是以前的渠道

懂球帝 浏览 1587

源杰科技市值640亿,光芯片竞争激烈,如何撑起高估值?

尺度商业 浏览 720

代码无需审核、数据随便喂,AI 正在催生下一场企业级灾难

IT之家 浏览 1639

斯瓦泰克输高芙无碍晋级!波兰淘汰美国,连续3年跻身联合杯决赛

全景体育V 浏览 708

英特尔AI双赛走出的万名开发者,正在弥合AI人才缺口

科技行者 浏览 606

M3旅行版上市售94.39万元 告别平行进口

网易汽车 浏览 1553

春季躁动,AI软件应用迎来“奇点时刻”

懂财帝 浏览 646

加冕荷兰射手王+助攻王!德佩:又一破纪录时刻,而且远未结束

懂球帝 浏览 1817

港交所陈翊庭:香港IPO发行量全球第一,近半来自A股公司!宁德时代股价翻倍

时代周报 浏览 1761

大疆Osmo Pocket 4云台Vlog相机被曝3月发布,分标准/Pro版

IT之家 浏览 628

澳P-8A军机侵闯中国西沙领空 解放军驱离

界面新闻 浏览 1765
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1