关闭广告

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

机器之心Pro2739人阅读

本文第一作者李梦琦为香港中文大学（深圳）计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作，并在香港中文大学（深圳）孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里，多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号，只使用模型自身生成的答案进行自训练，是否仍然能够提升推理能力？是的！SePT（Self-evolving Post-Training）给出肯定答案，简洁的自训练方法，可在数学推理任务准确率直升10个点！

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

熊黛林带双胞胎女儿旅行，2个女儿长得完全不一样

素素娱乐浏览 4362

黄金、白银突然暴跌！发生了什么？

中国品牌浏览 4400

让大模型能自己想出安全方案——KAIST团队的突破性研究

科技行者浏览 4318

康师傅换帅！创始人之子接棒CEO，去年薪酬937万元

中国基金报浏览 4878

美的致富路，机器人暂未挑大梁

北京商报浏览 5311

一斤豆芽28.8元，杨国福的天价麻辣烫到底卖给谁？

江瀚视野浏览 5287

聚焦AI+畜牧，刘松柏攻破鸡味密码，打造终身学习广东样本

南方都市报浏览 3797

石破天惊，日本电影新浪潮的开山大师名作！

幕味儿浏览 5542

这几件衣服太火了，谁穿谁好看

LinkFashion 浏览 5159

我用1秒成为陈妍希梦女，你也来试试吧

时尚COSMO 浏览 4957

燃油+电动全都配全新宝马4系最新消息曝光

乐选爱车浏览 4379

汇聚超千项前沿成果，第八届长三角科技成果交易博览会开幕

蓝鲸新闻浏览 5556

杜锋：希望大家能保持整场的强度，为年轻球员登场争取机会

懂球帝浏览 4350

裤子+靴子：今年冬天最经典搭配，松弛又时髦！

LinkFashion 浏览 4312

《逍遥》结局揭秘：糖衣之下，是千年人妖血泪博弈

肆季娱乐浏览 4767

德甲身价涨幅榜：奥利塞暴涨3000万第1，阿德耶米、于帕上榜

懂球帝浏览 5454

汉坦病毒聚集性感染专家锁定能＂人传人＂的安第斯病毒

上观新闻浏览 15049

巴基斯坦总理：预计美伊协议将在24小时内敲定

封面新闻浏览 1304

以称打死两名越过加沙地带“黄线”人员

环球网资讯浏览 5245

被问与特朗普关系是否已＂破裂＂斯塔默回应

环球网资讯浏览 61403

伊姐周六热推：电视剧《方圆八百米》；电视剧《金关》......

伊周潮流浏览 2579

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

2026春夏...

缅北白家案...

纪录片《重返...

才播6集热度...

狼队主帅：斩...

2025秋冬...

高盛顶级交易员：美股临近CTA卖盘触发位，市场企稳看政府开门

黄宗泽恭喜陈伟霆当爸，怼记者别太八卦

连马斯克都盯上了这块“肥肉”

熊黛林带双胞胎女儿旅行，2个女儿长得完全不一样

黄金、白银突然暴跌！发生了什么？

让大模型能自己想出安全方案——KAIST团队的突破性研究

康师傅换帅！创始人之子接棒CEO，去年薪酬937万元

美的致富路，机器人暂未挑大梁

一斤豆芽28.8元，杨国福的天价麻辣烫到底卖给谁？

聚焦AI+畜牧，刘松柏攻破鸡味密码，打造终身学习广东样本

石破天惊，日本电影新浪潮的开山大师名作！

这几件衣服太火了，谁穿谁好看

我用1秒成为陈妍希梦女，你也来试试吧

燃油+电动全都配全新宝马4系最新消息曝光

汇聚超千项前沿成果，第八届长三角科技成果交易博览会开幕

杜锋：希望大家能保持整场的强度，为年轻球员登场争取机会

裤子+靴子：今年冬天最经典搭配，松弛又时髦！

《逍遥》结局揭秘：糖衣之下，是千年人妖血泪博弈

德甲身价涨幅榜：奥利塞暴涨3000万第1，阿德耶米、于帕上榜

汉坦病毒聚集性感染专家锁定能＂人传人＂的安第斯病毒

巴基斯坦总理：预计美伊协议将在24小时内敲定

以称打死两名越过加沙地带“黄线”人员

被问与特朗普关系是否已＂破裂＂斯塔默回应

伊姐周六热推：电视剧《方圆八百米》；电视剧《金关》......

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

2026春夏...

缅北白家案...

纪录片《重返...

才播6集热度...

狼队主帅：斩...

2025秋冬...

高盛顶级交易员：美股临近CTA卖盘触发位，市场企稳看政府开门

黄宗泽恭喜陈伟霆当爸，怼记者别太八卦

连马斯克都盯上了这块“肥肉”

熊黛林带双胞胎女儿旅行，2个女儿长得完全不一样

黄金、白银突然暴跌！发生了什么？

让大模型能自己想出安全方案——KAIST团队的突破性研究

康师傅换帅！创始人之子接棒CEO，去年薪酬937万元

美的致富路，机器人暂未挑大梁

一斤豆芽28.8元，杨国福的天价麻辣烫到底卖给谁？

聚焦AI+畜牧，刘松柏攻破鸡味密码，打造终身学习广东样本

石破天惊，日本电影新浪潮的开山大师名作！

这几件衣服太火了，谁穿谁好看

我用1秒成为陈妍希梦女，你也来试试吧

燃油+电动全都配 全新宝马4系最新消息曝光

汇聚超千项前沿成果，第八届长三角科技成果交易博览会开幕

杜锋：希望大家能保持整场的强度，为年轻球员登场争取机会

裤子+靴子：今年冬天最经典搭配，松弛又时髦！

《逍遥》结局揭秘：糖衣之下，是千年人妖血泪博弈

德甲身价涨幅榜：奥利塞暴涨3000万第1，阿德耶米、于帕上榜

汉坦病毒聚集性感染 专家锁定能＂人传人＂的安第斯病毒

巴基斯坦总理：预计美伊协议将在24小时内敲定

以称打死两名越过加沙地带“黄线”人员

被问与特朗普关系是否已＂破裂＂ 斯塔默回应

伊姐周六热推：电视剧《方圆八百米》；电视剧《金关》......

燃油+电动全都配全新宝马4系最新消息曝光

汉坦病毒聚集性感染专家锁定能＂人传人＂的安第斯病毒

被问与特朗普关系是否已＂破裂＂斯塔默回应