关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1252人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《我不是药神》原型陆勇时隔5年重返印度

红星新闻 浏览 7885

和李晨分手6年后嫁普通人,她整个人都变样了

青史楼兰 浏览 4014

充电十分钟、续航2000公里!宁德时代宣布:2027年量产全固态电池

优视汽车 浏览 3645

天津警察学院两干部论文查重率超70% 校方:官方没认定

澎湃新闻 浏览 20514

奥恰洛夫谈击败张本智和:我打出了顶级水准,自己也有些意外

懂球帝 浏览 3990

汽车图谱㉔|1月车市调整:上汽销量居首,吉利逆势增长

贝壳财经 浏览 2876

理想汽车段吉超:造车这件事,可以借鉴零售业的胖东来模式

经济观察报 浏览 3569

所以《All Her Fault》,其实都是“他的错”?

时尚COSMO 浏览 2800

美记@湖人盼尽快换凯斯勒!艾顿难堪大任 湖媒愿提高报价出2首轮

颜小白的篮球梦 浏览 4057

古巴启动防空演习 美国航母已部署加勒比海

澎湃新闻 浏览 114

仅自己可见:腾讯QQ群聊消息官宣支持元宝AI总结功能

IT之家 浏览 3562

抄底时刻已至?新荣记、胡晓明联手入股西贝

首席商业评论 浏览 2941

激烈攻防暴露美军中东反导漏洞

环球网资讯 浏览 2037

香港火灾已致超40人遇难 3名工程负责人涉"误杀"被捕

界面新闻 浏览 29059

迪士尼将对OpenAI进行10亿美元股权投资

第一财经资讯 浏览 2892

排队200桌,这个地域火锅成了今冬“顶流”

餐饮老板内参 浏览 2481

近两个月13家券商收罚单 投行、经纪业务是重灾区

证券时报 浏览 3847

谷歌IMO金牌级Gemini 3深夜上线!华人大神挂帅,OpenAI无力反击

新智元 浏览 2814

伊朗针对以色列心脏地带发起打击 对美国发出威胁

每日经济新闻 浏览 115176

中国“十五五”:未来五年,世界剧变!

宋鸿兵 浏览 4073

宇树科技更名!正在办理工商变更,已完成首期上市辅导

红星资本局 浏览 3985
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1