关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者4140人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

外媒披露美国在委内瑞拉下个目标:系马杜罗关键盟友

北京日报客户端-长安街知事 浏览 8926

“乔治·华盛顿”号航母进入南海 “尼米兹”号航母同日离开

环球网资讯 浏览 3810

晕了晕了!宽基指数ETF遭主力抛售逾2000亿元!别慌,超百只行业主题ETF正被资金抢筹(附名单)

每经牛眼 浏览 3133

悬了!仅剩80天!“西北酒王”进入倒计时

壹只灰鸽子 浏览 4320

以色列发起猛攻 加沙城深陷战火

新京报 浏览 5205

中期改款奔驰AMG SL曝光 前脸焕新 依旧多种动力

汽车公告板 浏览 3125

原来最适合亚洲人的单品之一,是它

黎贝卡的异想世界 浏览 3673

朱孝天回应阿信感谢,自曝没再收到邀约

萌神木木 浏览 3046

稳增5.6%!武汉GDP站稳2.2万亿

虎投邦 浏览 2919

2025蔚来日在杭州成功举办

财经无忌 浏览 4982

新国标来了!曾经吹上天的辅助驾驶要“变天”了

知嘹汽车 浏览 1349

突破西方封锁 万里眼超高速实时示波器全球首发

网易科技报道 浏览 4184

红旗E-QM5换电版车型正式上市 售8.98万元

车质网 浏览 3734

售14.98万起 2026款海豹07DM-i正式上市

网易汽车 浏览 5245

拉莫斯:虽然浙江队实力很强,但我们最近的火力也很强盛

懂球帝 浏览 4102

刚说淘汰中国激光雷达,最后希望的 Luminar 就破产了?

差评XPIN 浏览 3451

天冷了,“彩色毛衣”这么穿美翻了!

LinkFashion 浏览 3334

光大银行董事会换届减员,4名新面孔亮相

财经众议院 浏览 4611

E句话| 姐有新恋情啦?

仙女事件簿 浏览 3366

汪涵老婆带82岁母亲拍照,透露从芒果离职原因

心静物娱 浏览 3615

京东首款汽车定了!埃安UT迎泼天流量,能否逆天改命?

雷科技 浏览 4256
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1