爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

被逼离队？曝...

领导为什么不...

投资界“扫地...

亚奇雷AGI...

北约将北极地...

意甲主席谈足...

范佩西首次征召儿子进入费耶诺德比赛名单，但并未安排他出场

中国女足近11次对澳大利亚未尝胜绩，但在亚洲杯还没输过对方

DeepSeek崩了，官网：正在修复

退休三年后“落马”，恒邦财险原董事长肖晓华被查

因妻子出轨男子与堂哥合谋车祸撞死儿子骗保被判死刑

2026年商品消费扩容升级电商平台在行动

雷军直播四小时回应质疑

72岁患癌老人办生前告别式四十多名宾客来到现场发言

郑爽新账号遭封禁，晒自拍一个细节被人认出，疑似穿男友衣服出镜

1200亿天价订单疑云：宁德时代为何押注一家“小公司”？

外交部回应＂APEC会议期间中美元首是否举行会晤＂

大众中国市场2025年交付269.38万辆，同比减少8%

52岁颜丙燕官宣恋情！小20岁男友被拍

苹果公司总市值首次升破4万亿美元

NBA新赛季大前锋TOP10：字母一枝独秀浓眉盼健康

推广|| 冬天利用率超高的裙子，怎么搭都对！

美高官：委官员已私下保证将满足美提出的条件和要求

半年亏损 5800 万仍闯港交所！复星医药分拆安特金图啥？

内娱女明星手撕导演，翻车了？

中央网信办：就数字虚拟人信息服务管理办法面向全社会公开征求意见

以军称地面攻势要打数月以防长：加沙正在燃烧

美媒：特朗普声称美将＂统治＂委其真实意图逐渐明朗

优刻得携手华中科技大学探索Agent推理基础设施新路径

新增激光雷达 2026款比亚迪夏官图发布