关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者26人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

初春时节,和关晓彤章若楠一起“绿”一下

瑞丽网 浏览 18462

县委原书记收金矿俩老板送的1800万 退赃500万又要回来

上游新闻 浏览 74487

鞠婧祎新剧造型到底用了多少发际线粉?

新氧 浏览 15024

这两大业务进展,华为重磅披露!

每日经济新闻 浏览 17659

中年男人,比变老更可怕的是“选错发型”!显老土气,油腻感十足

潮人志Fashion 浏览 12386

里弗斯:有些晚上你必须得赢球 今晚就是其中之一

直播吧 浏览 18637

特朗普透露将被抓 分析人士:或极大促进他的竞选活动

新京报外事儿 浏览 103229

火锅底料“出海记”:年赚3亿,计划海外上市

时代周报 浏览 18799

打工人龙年第一道坎,是抢不到春运回程票

刺猬公社 浏览 11722

国内降价日本涨价,比亚迪到底是怎么盘算的?

二师兄玩车 浏览 11268

4家银行被罚380万元!这类行为被整顿

中国基金报 浏览 18631

经济实惠!46球,巴萨成2001-02赛季以来西甲同期进球最少领头羊

直播吧 浏览 18758

年末商战打响,京东采销喊话拼多多

第一财经资讯 浏览 11897

增程电动是当代皮卡最优解? 长安猎手请回答

网易汽车 浏览 12216

追觅进入剃须刀市场推出首款产品“小胶囊S7 Pro”

IT之家 浏览 268

哈登观战就看这?快船首节22中4+前11中0 卡椒威少合计12中0

醉卧浮生 浏览 13031

苹果中国iPhone降价千元的背后:开年市场下滑,投行看淡

澎湃新闻 浏览 11798

刘诗诗谈拍戏:每天做俯卧撑 危险动作戏自己完成

深剖娱乐圈 浏览 12365

恒大地产去年净亏527亿 流动负债1.6万亿 已资不抵债

每日经济新闻 浏览 84274

工业知识联盟在深成立 为工业AI的可靠发展筑牢知识底座

南方都市报 浏览 183

宝能系欠款难收回?科新发展亏损幅度扩大,股票或被“披星戴帽”

证券时报e公司 浏览 11666
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1