关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者362人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

陕西延安致11死瓦斯爆炸事故细节披露:抽烟点火引起

新京报 浏览 69859

美股、中概股,全线爆发!机构称A股调整是布局良机!

证券时报e公司 浏览 524

为了对抗封面党,网友开始众筹标题和封面

差评 浏览 15315

全智贤新剧跌破平台下线,迪士尼2亿投资亏本,业内直言堪称灾难

萌神木木 浏览 537

中印两军日前举行第十九轮军长级会谈 外交部回应

环球网 浏览 84607

普京就“瓦格纳事件”发表讲话 绍伊古在场

界面新闻 浏览 110918

拉科布声明未来2年所有人将在一起 这意味着勇士不引援了?

仰卧撑FTUer 浏览 471

卢浮宫盗贼没偷6000万美元钻石 其它被盗藏品或被熔化

极目新闻 浏览 6258

当35岁李沁遇上28岁陈哲远,CP感是门玄学

陈意小可爱 浏览 542

甄子丹一家澳门旅游,受何超琼接待,岳母保养得宜

云图娱乐 浏览 19218

美国联邦法官宣布:无限期推迟一场涉特朗普重要审判

财联社 浏览 12074

独家对话旺仔小乔“榜一大哥”:一场直播曾打赏7万元,让自己别为她难过而改名“别难过”

红星新闻 浏览 460

2023年中国锂电池累积出口额为650.07亿美元 创下新高

经济观察报 浏览 11801

做品牌,从抬高消费者剩余开始

虎嗅APP 浏览 11914

男子放弃登顶珠峰救人被质疑:已用无人机拍下证据

每日经济新闻 浏览 89069

武汉女子遭遇APP投资骗局:起诉被驳回 警方又不立案

上游新闻 浏览 6194

比赛日前瞻:强强对话接连上演,英超双红会谁能笑到最后?

懂球帝 浏览 12477

俄罗斯发动空袭 基辅遭受"自开战以来最大规模袭击"

北京日报客户端-长安街知事 浏览 115941

趁春光大好,赶紧法式一下!

瑞丽网 浏览 18851

不是这个,重新发皇马官推今日第二推:10魔笛+5贝林=15冠

直播吧 浏览 10719

韩国女孩的会穿,不仅体现在红毯华服上

大维聊时尚 浏览 19472
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1