关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro50人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

E句话| 这对邪门CP又是哪里来的?

仙女事件簿 浏览 2432

记者:U21联赛和U19中青赛合并为U20联赛,只是超龄球员数额不同

懂球帝 浏览 1900

郝蕾说金敏喜是自己在亚洲的唯一对手

芊手若 浏览 2894

比亚迪连续4个季度超越特斯拉

大象新闻 浏览 3202

曾经拯救过无数个学生狗的360doc,倒下了。。。

差评XPIN 浏览 1969

"老虎"高以忱被开除党籍:大搞政商勾连 大肆收钱敛财

界面新闻 浏览 11680

乐聚机器人已完成股改,正推进IPO计划,刚完成15亿元融资

红星资本局 浏览 3254

35岁郑爽近照曝光!脸部又僵又肿网友直呼认不出,彻底成了素人

萌神木木 浏览 2254

NBA战报:雷霆94-91险胜掘金,沃特森15分

懂球帝 浏览 3222

柴麒敏:绿色低碳产业将释放约30万亿元新增投资

中国企业家杂志 浏览 2074

洪都拉斯3-0大胜海地,奎奥托、安东尼-洛萨诺建功

懂球帝 浏览 3269

小米YU7内掏出不明零件最新进展 市监局介入处理

网易汽车 浏览 3108

伊朗伊斯兰革命卫队:击落一架美军搜救飞机

财联社 浏览 409

小伙雕刻"全球首个汽车石窟" 曾雕"奥特曼"石窟引争议

封面新闻 浏览 8822

“钢铁大亨”投资“口罩大王”,两个月浮盈近10亿

侃见财经 浏览 2977

港科大突破:代码本技术提升AI医学图像分析稳定性

科技行者 浏览 1942

足球报:城市联赛面临高昂行政成本,赛风赛纪和裁判也是困扰

懂球帝 浏览 3290

雷军大动作!小米新车,增加机械门把手

财通社 浏览 2218

每秒可传 1250 万部高清电影,亚马逊启动跨大西洋海底光缆项目

IT之家 浏览 2946

《双轨》空降逻辑混乱,赛车泰拳伪骨科叠加,虞书欣演技难撑人设

不八卦会死星人 浏览 2495

2米高台直坠!41岁张靓颖摔出尖叫

东方不败然多多 浏览 3245
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1