关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1250人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

男子称爷爷坟里埋了200万 女友给他272万发现其是老赖

潇湘晨报 浏览 7930

以军一天内93次袭击加沙致70人死亡

国际在线 浏览 4235

对话钦培吉:77岁的莲花,不做六边形战士

网易汽车 浏览 4609

玲花时隔4个月单人复出,曾毅近照憔悴暴瘦,凤凰传奇合体艰难

萌神木木 浏览 3291

推广|| 她们新年状态大开挂?原来悄悄做了这笔“美丽投资”

黎贝卡的异想世界 浏览 3115

暴涨23%!诺基亚获得英伟达投资,AI原生6G通信要来了!

雷科技 浏览 3856

2026年全明星球衣曝光!美国队两款+世界队一款:设计致敬洛杉矶

罗说NBA 浏览 2884

特朗普向60国发出邀请之际 多国正商量怎么对付美国

新民周刊 浏览 7567

全球首个太空AI诞生,H100在轨炼出!马斯克爆赞

新智元 浏览 3428

再现巨额压单!A股跳水,官媒给“题材炒作”降温,商业航天跌停潮

看财经show 浏览 2898

这才是中年女人该有的打扮,不扮嫩、不穿花,简约大方还显贵

静儿时尚达人 浏览 3214

剑指Anthropic十亿美元级市场!谷歌杀入AI编码大战,与Replit达成多年合作

华尔街见闻官方 浏览 3616

许家印侄子许火健豪宅被法拍,起拍价4400万元,配有5个洗手间

红星资本局 浏览 3041

李想评豆包手机为现象级AI产品 努比亚回应:带来自动驾驶式体验升级

快科技 浏览 2810

抢占本土聊天机器人市场,印度AI企业Sarvam推出Indus应用

IT之家 浏览 2414

委内瑞拉外长称已接待美驻委临时代办

国际在线 浏览 2847

新华社权威快报|我国生成式人工智能用户规模超5亿

新华社 浏览 4154

德云社张鹤伦凌雾天唱歌,好惬意

细语 浏览 4119

另有安排 大众ID.Polo暂无引入中国计划

车质网 浏览 3807

Here we go!罗马诺:切尔西将签下谢周三17岁边后卫阿拉奥

懂球帝 浏览 2963

委内瑞拉:逮捕一批"掌握美情报机构直接信息"的雇佣兵

红星新闻 浏览 13315
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1