关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1502人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赛力斯今日登陆香港主板 成首家“A+H股”新能源车企

上游新闻 浏览 4107

伊媒发布小学被炸瞬间 战斧导弹从天而降

潇湘晨报 浏览 2315

拉波尔塔:姆巴佩的做法确实让我感到意外,无论输赢都要大度

懂球帝 浏览 2727

“复古知识分子风”正流行,这5件单品谁穿谁时髦!

LinkFashion 浏览 3620

今年流行的这件“短外套”美爆了,怎么搭都优雅贵气!

LinkFashion 浏览 3659

俄总统助理:俄方移交1003具乌军士兵遗体

新华社 浏览 3672

韩总理怒斥“反华示威”:自残行为

澎湃新闻 浏览 8553

零跑D19定档10月16日,旗舰SUV全球首秀

网易汽车 浏览 5203

“调改”难挽颓势,永辉超市减持红旗连锁套现8100万,去年已清仓式减持中百集团

红星资本局 浏览 4474

萧煌奇妻子正面照曝光:是短发气质美女,双方否认是奉子成婚

素素娱乐 浏览 3405

陈乔恩带老公和父母聚餐,Alan负责拍照

黄谋仕 浏览 3430

暴涨!全线拉升!芯片传闻,突然刷屏

券商中国 浏览 3278

塞纳河“上岸”不易:20年合约、赔350万成为失信人、抑郁症也要赔钱…小偶像们那些年打过的官司

仙女事件簿 浏览 3680

一笑随歌李沁陈哲远短短37秒吻戏床戏都上尺度了

陈意小可爱 浏览 3784

98年翻版金城武,“正统男港星”终于又出现了

时尚COSMO 浏览 3661

全运会女足综述:王霜制胜湖北2-1进4强 张琳艳世界波北京1-3上海

我爱英超 浏览 4163

最强充电宝国标将至,英集芯推出蓝牙智能方案引领行业升级

时代周报 浏览 3765

剑南春丨曼联1-1利兹联,阿伦森破门,齐尔克泽助攻库尼亚扳平

懂球帝 浏览 3451

耗资3.5亿,中国版107分钟一刀不剪,好莱坞这部R级大片杀来了

靠谱电影君 浏览 4020

大疆汪滔十年后首次采访:世界蠢得不可思议,我也是

雷科技 浏览 1764

美媒:"林肯"号航母打击群一两天内即可对伊朗动武

国际在线 浏览 3168
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1