关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1503人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国公民需谨慎前往日本 四大原因披露

环球网资讯 浏览 43549

泰康资产段国圣:AI切入投研赛道,资管行业价值链有望重塑

券商中国 浏览 4099

离婚7个月,霸总杨子又给内娱上了一课

老吴教育课堂 浏览 3770

中国男排主帅海宁现身全运会,称需建立不同于女排的培养体系

懂球帝 浏览 4085

德约科维奇仅训练12分钟便显露痛苦状态,澳网前景引发担忧

网球之家 浏览 3298

法媒:阿什拉夫等伤员会前往慕尼黑,为队友加油助威

懂球帝 浏览 1135

17年,巴菲特投资比亚迪累计套利至少80亿港元

第一财经资讯 浏览 5053

迪士尼,10亿美元投资OpenAI

中国基金报 浏览 3732

50岁女性过冬穿搭:有大衣和羽绒服就够了,简约从容才是优雅

静儿时尚达人 浏览 2761

媒体:怒批欧洲软弱 结果特朗普自己成"吐槽大会"主角

新京报评论 浏览 20144

每体:奥尔莫将因伤错过加泰德比,预计在西超杯期间伤愈复出

懂球帝 浏览 3513

俄无人机救下一名正遭乌军性侵女子 顾不上提裤子拔腿就逃

大象新闻 浏览 4312

中国造歼-10C狂砍阵风,印机绝望中凌空炸碎

浏览 8387

中东棋局骤变:美以\"师徒反目\"暗流汹涌

浏览 7183

清华大学等联手打造智能分析系统,让卫星图像自动识别准确率飙升

科技行者 浏览 3397

中超3队集体垫底!亚冠12场2胜+客场不胜,博主开炮:真别玩了

奥拜尔 浏览 4242

斋戒期间突尼斯联赛下午一点比赛,终场哨响两队球员体力不支均趴窝

懂球帝 浏览 2832

断崖领先,罗塞尼尔执教白堡同期使用U21球员时间五大联赛第1

懂球帝 浏览 3312

黑吃黑!骗走全球36亿的“币圈割王”,被精准猎杀

大猫财经Pro 浏览 3332

零跑业绩向好 朱江明持股增加

汽势传媒 浏览 4267

斥资5.6亿,看完《惊蛰无声》预告片,我想说:张艺谋又赌赢了!

娱乐圈笔娱君 浏览 3214
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1