爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

U23国足要...

乌方用遥控炸...

U23国足遭...

新人中东度蜜...

沈建光：从国...

＂民营船王＂...

熊倪：上半年举办湘BA和龙舟超级联赛，6-11月举办湘超

报道：欧央行官员们表示，降息周期很有可能结束了

人工智能时代如何深化跨区域知识产权保护协作，嘉定这场论坛进行了探讨

超34.2万人爆仓，比特币一度跌破10万美元关口

“1445”战略的智能化答卷，长安“天枢领航”亮相重庆车展

古偶大女主这碗饭，王鹤润吃得并不香

E句话| 她也遇到过阴阳剧本？

新基金业绩大分化

一场意外的形象崩塌却让他更红了！

兰博基尼 CEO 温科尔曼称至少十年内不会放弃内燃机

曝涉案俱乐部罚分不降级国安名宿上禁足名单苏宁名将或就此退役

iCAR超级V23暗影极客版上市售价16.08万元

多只明星基金减仓茅台，为啥茅台不被资本欢迎了？

小鹏机器人首秀摔了此前因步态太拟真被疑＂真人套壳＂

被家暴16次女子得70%共同财产及10万赔偿共140万余元

莱因克尔：慢放让西蒙斯的动作看起来很夸张，其实黄牌就够了

男子残忍杀害未婚妻被判死缓监狱管理局否认其将出狱

吉文：可能我有点老派，看不惯加纳乔走路歪着身子还挂条链子

蔡国强被指富士山放烟花遭拒媒体发问:国内为何通过

“美股暴跌20%”、“200美元油价”情景没出现？特朗普直言“很惊讶”

他靠演反派爆火却对同事女儿一见钟情

英媒：由于伊萨克受伤，利物浦预计不会在冬窗放走萨拉赫

戚薇李承铉能消停点不？为圈钱上800个综艺，夫妻那点破事看腻了

吃相难看！史晓燕曝何晴离婚有隐情，力挺许亚军