爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

马克龙要建欧...

39岁李思思...

欧洲联军派几...

戴维斯被视为...

北京外援动态...

米兰球员身价...

男女情爱奇招尽出，碎碎念伍迪老爷再上阵！

AI圈再颠覆！中国AI翻译耳机通话翻译，实测震撼

2026款ICON巧克力＂心动紫＂上市限时7.98万起

在桃浦，解锁未来发展无限可能

洪都拉斯3-0大胜海地，奎奥托建功，安东尼-洛萨诺破门

蒋欣节目中直言自己没人追，理想型竟然是他！

今年春天一定要拥有的针织，这样穿减龄又好看！

35岁郑爽近照曝光！脸部又僵又肿网友直呼认不出，彻底成了素人

小米推出“围观短剧”App：主打“无广告海量短剧免费看”

她们的脸，为什么总是让人一见倾心？

以色列：随时重返战场

马德兴：U15国少已在深圳集训，周海滨正组织大规模选拔

纯纯诈骗剧，浪费了一票女神

一颗卫星“掉链”，为何让全球航天界紧张？

＂吉林一号＂拍台湾影像岛内:影像越清晰＂斩首＂越精准

职场“关系户”还值得羡慕吗？

美军高官称希望韩建核潜艇对抗中国还引了句＂蜘蛛侠＂

博主：据了解长春亚泰旧将王栋执教中乙长春喜都

马杜罗紧急求助普京：委内瑞拉需要导弹、雷达和飞机

高市早苗成功＂策反＂对手分析称其当选首相几乎成定局

全球牛肉“通胀”，中国市场价格为何“独稳”

女子毕业24年后起诉母校多收4000元学费要求退一赔十

以军先斩后奏空袭加沙多地特朗普：以色列没做错

光阴的故事丨接力放映露天电影70载他们用坚守点亮光影记忆