关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者1828人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

波兰外交部称有炮弹击中该国驻乌克兰大使馆

极目新闻 浏览 3690

马斯克:比尔盖茨最好尽快平掉特斯拉空头头寸

鞭牛士 浏览 2623

美媒称沙特强烈游说特朗普对伊朗动手 沙特坚决否认

环球时报国际 浏览 41806

最强“卖铲人” 寒武纪靠AI芯片疯狂掘金

21世纪经济报道 浏览 3788

足协官宣 45岁邵佳一出任国足新主帅

央视新闻客户端 浏览 15193

澳足协批准米兰来战,亚足联

体坛周报 浏览 3047

特斯拉前全球销售主管爆猛料

电动知家 浏览 2484

俄总理签署决定 允许俄国防部终止多项双边协议

财联社 浏览 1964

隆源股份历史合资身份或存涉税风险,寄售库存商品监盘比例竟不足1%,国金证券是否尽责?|读懂IPO

时代周报 浏览 2147

价格倒挂加剧,经销商危机恐反噬整车厂

汽车人传媒 浏览 3865

徐正源:无法以全主力出战,又存在伤病,输球很遗憾

懂球帝 浏览 3211

小米SU7无法开门驾驶员死亡 雷军未发声累计掉粉29万

新闻坊 浏览 6927

杨幂刘亦菲后同桌零互动,深扒两人闹僵原因

萌神木木 浏览 2587

美国拟实施载人绕月飞行任务

北京商报 浏览 2095

珍珠专场|| 无论18岁还是80岁,总是会为它再一次心动

黎贝卡的异想世界 浏览 2178

今年流行的这件“短外套”美爆了,怎么搭都优雅贵气!

LinkFashion 浏览 2414

黄磊宣传乌镇用力过猛!戏剧节变夜店蹦迪现场,明星狂欢惹争议

萌神木木 浏览 3175

鸿蒙智行鹭岛首家尚界专网用户中心开业

Report汽车 浏览 2959

拟剥离银座商管 福瑞达继续瘦身

北京商报 浏览 3267

财务报告存在错报!联创光电及董事长被警示,此前公告董事、监事被留置

红星资本局 浏览 3100

全球首家!速腾聚创(02498)全栈自研数字激光雷达芯片通过AEC-Q认证,技术断代领先

智通财经 浏览 3317
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1