爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

连马斯克都盯...

唐一军16年...

足球报：国安...

许绍雄离世，...

跨年夜秀恩爱...

社保基金最新...

特朗普：俄方知道美国在俄海岸附近部署核潜艇

快手全员发开工红包：正式员工366元

《offer7》求职修罗场，满级人类怎么打逆风局？

阿斯：恩里克不坐教练席而上看台的行为，在西班牙是违规的

业绩承压下的豪赌：时空科技跨界收购存储芯片厂商嘉合劲威

五菱宏光MINIEV 11月销量56756辆登顶全行业销冠

大鹏工业：外购标准件采购占比超七成自研的被评奖项目背后现客户

麻省理工学院发明“可注射”脑机芯片，有潜力用于治疗老年痴呆症

2万罗马仕充电宝14万根充电线拍卖流拍，二拍起拍价164万

申万宏源：2025年科技牛只是小菜，2026年下半年将迎来全面牛

杜锋谈1000场胜利：俱乐部走到今天不容易，作为一份子我很自豪

日本渣男骗前女友拍全裸写真出轨

意媒：尤文完成备战皇马最后一练，米雷蒂和热格罗瓦回归合练

暴涨23%！诺基亚获得英伟达投资，AI原生6G通信要来了！

3人因销售火麻种子被判缓刑申诉获再审法院维持原判

杨振宁获诺奖速度纪录至今未破提出理论到获奖仅1年

三星电子市值突破万亿美元

7场贡献3球1助攻，麦肯尼当选尤文1月最佳球员

方媛生三胎后现身芜湖，摘墨镜气血不足显憔悴

途经俄罗斯航班坠机38人身亡机身或被弹片击中

＂柴怼怼＂被逮捕：因＂打假＂走红后售假有人消费近10万

万科公告：郁亮到龄退休

男子围猎多名女性自称是＂公务员＂有女子给他140万

存储芯片超级周期来袭！江波龙股价两个月涨超200%！超85亿存货在手