关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2094人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

移动、联通押注下一代“手机”

全天候科技 浏览 1188

今年流行的这件“短外套”美爆了,怎么搭都优雅贵气!

LinkFashion 浏览 1469

记者:米兰正在和布莱顿谈判,尝试纯租借引进科波拉

懂球帝 浏览 1036

CBA疯狂一夜:广东遭上海双杀,前总冠军23连败,最新积分榜如下

侃球熊弟 浏览 862

闻泰科技百亿半导体资产控制权受限

南方都市报 浏览 2234

英伟达“跌倒”,寒武纪“吃饱”?

经济观察报 浏览 2199

苏州造车新势力Kosmera跑车亮相CES 2026

IT之家 浏览 1162

大伯晨练在公园发现年轻女尸 29年后警方公布案件详情

环球网 浏览 10623

卢拉与特朗普通电话 讨论两国关系和委内瑞拉局势

财联社 浏览 920

两中国游客穿泳衣失联 失联女生对父母说是与发小出游

红星新闻 浏览 18003

马塞洛:当年觉得皮克是个自以为是的蠢货,太烦人了

懂球帝 浏览 2335

搭VLA大模型 全新蓝山智能进阶版将上市

网易汽车 浏览 1391

胡歌、黄晓明、关晓彤齐聚,央视2026片单炸了

手工制作阿歼 浏览 1091

零下30度,续航1500公里!奇瑞固态电池车要来了

象视汽车 浏览 877

《红舞鞋》官微删除道歉信,司机还挑衅网友:猫也没人疼戏照样拍

萌神木木 浏览 2125

是颜值派更是实力派,李斯丹妮的高能生活不设限

时尚COSMO 浏览 1003

Jacob Elordi 最新电影造型,好像鬼!

下水道男孩 浏览 2096

曝古二家人被骚扰!90多岁外婆被人找上门,难怪放录音重锤王家卫

萌神木木 浏览 1972

双11|| 今年我只想回购这些!

黎贝卡的异想世界 浏览 2193

钟欣潼前夫被曝婚变,第三任妻子删光合照

树娃 浏览 1994

24架F-35A隐身战机集结西太平洋

极目新闻 浏览 2303
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1