爆点资讯

当我们训练人工智能写代码或解数学题时，就像教小孩做作业一样，需要给它很多练习题。但问题来了：有些题目太简单，AI一下就会了；有些题目太难，AI怎么也学不会。更麻烦的是，按照传统方法，不管题目难易，我们都给每道题分配同样的练习时间和次数。这就像让学霸和学渣都花同样时间做同一套题——既浪费了学霸的时间，也帮不到学渣。

来自伊利诺伊大学香槟分校、微软研究院和阿姆斯特丹大学的研究团队，在2025年10月发表了一项名为"Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training"的研究。这项研究就像给AI学习装上了"智能调节器"，让它能够根据题目难度自动分配练习时间，既不浪费计算资源，又能确保每道题都学得扎实。

研究团队的核心发现是：当前主流的AI训练方法GRPO（组相对策略优化）存在一个严重问题——当AI对某道题的所有尝试都得到相同结果时（要么全对要么全错），系统就收不到有用的学习信号，就像老师看到学生交上来的作业要么全是满分要么全是零分，无法判断学生的真实水平。

为了解决这个问

AI让机器写代码变得更聪明：伊利诺伊大学团队破解训练瓶颈新方法

第二十七届高...

换装高功率电...

伊朗革命卫队...

香港知名女星...

股票涨停 3...

一汽-大众迈...

跑调风波越演越烈！沈佳润被网友喊话

制裁重启伊朗军方：已准备好应对任何威胁

香港中文大学突破AI训练难题：单个词汇也能让机器学得更聪明

59元钓鱼3小时，年轻人只想静静

溢价24%仍失败！必和必拓被爆出价400亿英镑被拒，英美资源坚持自身并购计划

政务大模型部署，重磅文件印发

烂番茄68％，《阿凡达2》导演的套路失灵了

有望首次入选全明星的球员：湖人里夫斯在列杨瀚森队友有戏

购置税新规下的购车选择题，插混车抄底还是等新车？

重庆女子乘＂黄色法拉利＂去内蒙古：计价器爆表了

云拒科技推出Yunjue Agent：能够从零开始自我进化的助手系统

萨里：我们没给罗马太多机会，但随后自己阵脚大乱

于和伟逆袭的路上，藏着这样的一个女子

火速认错！孙怡驾驶法拉利跑车违规

诺和诺德董事长携6名董事集体辞职，董事会“大换血”，年薪5000万CEO此前离任

仝卓表弟获救了！照片曝光头发已被剃光，从求助到救出不到24小时

创三年新低销量暴跌63% 超越特斯拉难不难？

移动、联通押注下一代“手机”

美对委军事打击造成至少40人死亡

TII发布Falcon-H1R：7B小模型推理能力超越32B大模型

消失的1.8%，你的钱会发生什么

预售10.29万起 BJ30旅行家将于9月27日上市

特朗普:美舰向伊朗货船开火炸出个洞

匹克被指要求拒绝降薪员工写检讨否则就停薪当地回应