关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者4021人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

在桃浦,解锁未来发展无限可能

上观新闻 浏览 3315

洪都拉斯3-0大胜海地,奎奥托建功,安东尼-洛萨诺破门

懂球帝 浏览 4147

蒋欣节目中直言自己没人追,理想型竟然是他!

青史楼兰 浏览 3807

今年春天一定要拥有的针织,这样穿减龄又好看!

LinkFashion 浏览 2487

35岁郑爽近照曝光!脸部又僵又肿网友直呼认不出,彻底成了素人

萌神木木 浏览 3156

小米推出“围观短剧”App:主打“无广告海量短剧免费看”

IT之家 浏览 4137

她们的脸,为什么总是让人一见倾心?

时尚COSMO 浏览 2994

以色列:随时重返战场

极目新闻 浏览 1513

马德兴:U15国少已在深圳集训,周海滨正组织大规模选拔

懂球帝 浏览 2948

纯纯诈骗剧,浪费了一票女神

独立鱼 浏览 3919

一颗卫星“掉链”,为何让全球航天界紧张?

上游新闻 浏览 3355

"吉林一号"拍台湾影像 岛内:影像越清晰"斩首"越精准

澎湃新闻 浏览 10627

职场“关系户”还值得羡慕吗?

识局 浏览 4151

美军高官称希望韩建核潜艇对抗中国 还引了句"蜘蛛侠"

澎湃新闻 浏览 45314

博主:据了解长春亚泰旧将王栋执教中乙长春喜都

懂球帝 浏览 3166

马杜罗紧急求助普京:委内瑞拉需要导弹、雷达和飞机

上观新闻 浏览 3850

高市早苗成功"策反"对手 分析称其当选首相几乎成定局

红星新闻 浏览 7876

全球牛肉“通胀”,中国市场价格为何“独稳”

北京商报 浏览 3914

女子毕业24年后起诉母校多收4000元学费 要求退一赔十

大风新闻 浏览 21029

以军先斩后奏空袭加沙多地 特朗普:以色列没做错

上观新闻 浏览 3146

光阴的故事丨接力放映露天电影70载 他们用坚守点亮光影记忆

北青网-北京青年报 浏览 4847
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1