关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者3460人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

官方:巴黎前锋杜埃右大腿肌肉拉伤,将伤缺数周

懂球帝 浏览 4576

灵感集结,能量共振

时尚COSMO 浏览 3791

钉钉和AI抢时间

虎嗅APP 浏览 3910

东风集团股份资本重组方案落地 实现100%国有控股

网易汽车 浏览 2819

E句话| 这对邪门CP又是哪里来的?

仙女事件簿 浏览 3618

自曝落后25年!福特CEO称绝不会再错过中国,能兑现吗?

车宇世界 浏览 4156

京东把榜一大哥整不会了

老斯基财经 浏览 4543

评论丨网购衣服上的“密码锁”,是商业诚信的刺眼“疤痕”

红星新闻 浏览 4610

74岁刘晓庆近况!生图皮肤白皙状态回春

艳儿说电影 浏览 4425

存量围城:险资疯抢REITs入场券

睿思网官方 浏览 876

推广中奖名单-更新至2026年4月28日推广

黎贝卡的异想世界 浏览 814

中国使出大招 全世界嘲笑美:终于中国出来收拾美国了

南宫一二 浏览 8943

演员金莎和孙丞潇官宣结婚 两人相差17岁

极目新闻 浏览 61545

戴墨镜出席达沃斯会议后 马克龙的支持率提升

参考消息 浏览 7547

兰州临街商铺突发爆炸致一死 事发路段已封锁仍在排查

大风新闻 浏览 4727

《危险关系》是“大圆满”的结局?错了,这是一个彻底的悲剧

娱乐圈笔娱君 浏览 2137

傍上 “新中式”,现制酸奶能迎来 “二次爆发” 吗?

餐饮老板内参 浏览 3815

2026品牌抢滩战:从野蛮生长,到“唯人格化”

霞光社 浏览 1648

28岁韩国女星改行开整容医院!亲吐真实心声

好贤观史记 浏览 310

网坛名宿预测德约在澳网后退役,被六千名塞尔维亚球迷围攻

网球之家 浏览 4574

智能早报丨黄仁勋造访台积电3nm产线索取产能;万华化学突破机器人“仿生皮肤”材料

观察者网 浏览 4505
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1