关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1249人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普称是自己让大家变得更富有:我的敌人也过得很好

红星新闻 浏览 20605

上年纪的女人别乱买衣服!有这3件单品就够了,温暖体面一冬

静儿时尚达人 浏览 3195

欧冠一夜4战!将有4队出线:头号黑马呼之欲出 2队晋级无忧

叶青足球世界 浏览 2525

金球奖红毯:小李子越老越有味

娱乐圈笔娱君 浏览 3154

媒体:美伊冲突似要再起 美军机在波斯湾遭遇紧急情况

新民晚报 浏览 13957

26款奔驰S级入门版不足90万起!外观豪华大气,搭载2.5T+48伏轻混

小史谈车 浏览 3039

史上头次只有6人拍总决赛合照,ATP骚操作引球迷众怒:德约呢?

网球之家 浏览 3949

以色列警告加沙居民:只剩最后机会撤离

环球时报国际 浏览 4275

甘肃台球协会副会长喊话吴宜泽:回来请你吃牛肉面,必须肉蛋双飞

懂球帝 浏览 889

小鹏汽车CEO何小鹏:所有核心产品线都要走向全球市场

IT之家 浏览 3171

特朗普扬言:美国已经变成了一个真正的联合国

参考消息 浏览 24893

美媒称黄仁勋态度突然改变:他改口了 认为美国能赢

环球时报国际 浏览 9089

除了卖汽水,这家外资巨头还在中国修飞机、开医院丨国是访问

国是直通车 浏览 3882

多名男女当街爬行学狗叫 官方:企业团建行为已致歉

极目新闻 浏览 10537

【原声】阿韦洛亚,最后一个穆里尼奥主义者

体坛周报 浏览 2955

性能+豪华 星途ES7GT/ES8/ET8/ET9四车发布

网易汽车 浏览 3403

特斯拉与迪士尼合作引争议:车机引入《创:战神》车模被指广告

IT之家 浏览 4154

“东风Jeep”要来了?Jeep全球高层到访武汉

网易汽车 浏览 3455

年度最扎心电影,看得中年男女坐立难安

Yuki女人故事 浏览 3039

一边收监管“黄牌”,一边夺A股成交额冠军!北方稀土股价新高背后,关联交易存隐忧

时代周报 浏览 4288

许利民:争取让赵睿在窗口期前打两场,曾凡博腰伤因训练不系统

懂球帝 浏览 3010
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1