关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro17人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

李禹熹公开和荣梓杉聊天记录!​开房都不舍花钱,还拿私密照威胁

萌神木木 浏览 3239

丰田新款Land Cruiser FJ最新消息曝光

乐选爱车 浏览 2529

利空突袭!凌晨,全线大跌!

券商中国 浏览 2472

秋天衣服没有必要买太多!这三款单品提前备好,百搭又不挑人

静儿时尚达人 浏览 3230

“五菱宏光家族焕新:燃油、增程、纯电三动力,5.48 万元起

IT之家 浏览 2902

菜可以预制,信任不可以预支

时尚COSMO 浏览 5137

美媒炒作中国大豆采购进度 遭到美国贸易代表直接反驳

澎湃新闻 浏览 19384

佩斯科夫:"海燕"巡航导弹试验不应影响俄美互动

国际在线 浏览 3049

仅自己可见:腾讯QQ群聊消息官宣支持元宝AI总结功能

IT之家 浏览 2574

嫁给汪涵17年,细扒杨乐乐心酸现状,她的选择真的对吗?

不八卦会死星人 浏览 3326

华为MateBook Pro电脑通过OpenHarmony 6.0 Release认证

IT之家 浏览 2059

叶总逼走李匆匆,才知肖格格攀上吴总的真相

阿腩讲娱乐 浏览 2197

奇瑞汽车宣布三大升级计划,2026年超35款车型将搭载猎鹰智驾

IT之家 浏览 2137

女子把100克黄金当垃圾扔了急哭 查监控发现被人捡走

黄河新闻网吕梁频道 浏览 8478

伊姐周六热推:电视剧《树影迷宫》;电视剧《锦月令》......

伊周潮流 浏览 3003

今年秋冬最流行的外套竟然是它?谁穿谁时髦!

LinkFashion 浏览 2720

TA:从多纳鲁马到塞门约,瓜帅的足球风格已从控球转变为反击

懂球帝 浏览 2159

中行风险总监卸任,薪酬曾超131万元

华美财经 浏览 2146

赵睿为地域歧视言论道歉:不该将情绪发泄球迷身上 感谢监督批评

醉卧浮生 浏览 1863

众星送别袁惟仁,前妻陆元琪露面表示不再怨恨,Ella哭到说不出话

萌神木木 浏览 1212

价格没变升级5G网?2026款宝马X1上市,销量稳了?

大李说车 浏览 1899
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1