关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro2人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国留学生到杨振宁在美办公室献花:晚安教授

极目新闻 浏览 6684

29.39万起 2.71秒破百 法拉利同款底盘 新款阿维塔12真的不是超跑吗?

网易汽车 浏览 427

视频:特朗普公布击沉"运毒潜艇"画面

新华国际 浏览 2394

海外子公司被荷兰冻结 闻泰科技:坚决反对

财联社 浏览 3288

泰国达叻府5县实施宵禁

新京报 浏览 2422

外套里面穿什么?这4款内搭时髦又显瘦!

Yuki女人故事 浏览 4655

环球小姐赛事双东家被签发逮捕令

土澳的故事 浏览 2671

外媒称“美国指控古巴军队在乌克兰作战” 古巴驳斥

环球网资讯 浏览 3279

坦克队喜剧的内核是悲剧?

静易墨 浏览 3260

女人“会穿衣”才更美,看看这些穿搭就知道,穿对了真显气质

静儿时尚达人 浏览 1372

视界大会红毯尴尬瞬间!踩裙子、抢位置,太多人手忙脚乱出状况

萌神木木 浏览 2949

委反对派领导人把自己的诺贝尔和平奖赠予特朗普

财联社 浏览 2010

贴广告的ChatGPT,一夜之间让全球网友破了防

机器之心Pro 浏览 2059

卡瓦哈尔谈国家德比:我们渴望复仇,击败他们意义重大

懂球帝 浏览 3128

国乒多人离队 总教练秦志戬回应

乒乓世界 浏览 11727

AI抢产能、车厂抢内存,这场博弈中国车企如何破局?

百姓评车 浏览 1909

中方回应是否放松稀土出口管制

财联社 浏览 12423

媒体:高市涉台言论后又蹬鼻子上脸 野田佳彦在放鱼饵

新民周刊 浏览 17581

她连上5次春晚,私下却和恩师同居怀孕被骗流产

律便利 浏览 3082

上海独居女子离世引关注,超百万元房产无人继承,记者实探→

每日经济新闻 浏览 2375

零百加速1.8s 星空计划首款车型将亮相CES

车质网 浏览 2303
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1