爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

看完《蜜语纪...

小米SU7高...

Amazon...

小李子携27...

标配激光雷达...

伊朗高级军官...

智己汽车2025全年销售81,017台创历史新高

古二反击《繁花》！新录音曝光打脸秦雯，业内直言压榨新人是常态

上海实验室推出AI智能体＂安全卫士＂：让机器人学会自我监督

利润暴跌99％，保时捷赚不到钱了？

看来看去还是这些穿搭舒适！深浅互补、多穿阔腿裤，简约自然

今年最流行的5条半裙，怎么搭都好看！

两人涉嫌切割小区23部电梯钢绳被拘原物管称被迫退场

天空：西汉姆联将继续信任努诺，俱乐部今天开会讨论引援问题

2050年人形机器人市场规模达5万亿美元，每10人就有1台

48岁袁泉素颜逛商场被拍，口罩遮半脸仍一眼认出

迪士尼，10亿美元投资OpenAI

萨顿：枪手踢得很不错，失利会让他们变得更加强大

杨振宁17年前的演讲发人深省：争夺国际话语权，需要中国人的创新精神

男子花4万为父母升头等舱手机遗失被安全员占为己有

著名音乐人何厚华英年早逝：终生未婚

闫学晶首现身再传噩耗，这回真洗不白了

3D唇妆风好大，人类对唇线笔的开发不足1%

美国坠机航母将退役

特斯拉你学坏了！发文内涵国内车企，国产纯电轿车、SUV挨个躺枪

福建舰、山东舰、辽宁舰作战能力不止“1+1+1”

极石汽车1月交付新车1028台拓宽海外业务

阿富汗称与巴基斯坦在伊斯坦布尔举行第三轮谈判

外媒聚焦中国“最强航母”：看得清清楚楚很冲击了

太阳报：曼联17岁中场思韦茨随一线队训练，被比作佩德里