关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者2676人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

欢迎回来!曾凡博时隔246天重返CBA赛场,高效拿到18分

懂球帝 浏览 2473

孙宏斌逃出生天

创业家 浏览 3696

巴菲特被曝已清仓比亚迪,持股期间比亚迪股价涨超38倍

澎湃新闻 浏览 4584

新国标来了!曾经吹上天的辅助驾驶要“变天”了

知嘹汽车 浏览 1096

官方:阿根廷U20主力中卫皮耶拉尼左膝扭伤;据悉无法出战半决赛

懂球帝 浏览 4052

法国将在格陵兰岛开设领事馆 法外长:这是个政治信号

鲁中晨报 浏览 8196

今年秋天最流行的6条半裙,怎么搭都好看!

LinkFashion 浏览 4637

NBA球员工会:我们与明州人民站在一起,必须捍卫言论自由的权利

懂球帝 浏览 3039

董璇女儿和佟丽娅儿子同登湾区晚会

妙知 浏览 4454

世体:弗里克奉行父亲式执教策略,阿劳霍成最新成功案例

懂球帝 浏览 2640

宁德联手紫金,打得过王传福和他挖矿的表哥吗?

蓝鲸新闻 浏览 1380

小个子女生冬天怎么穿衣?上宽下紧、体现曲线,显高显瘦舒适

静儿时尚达人 浏览 3237

Word再见!华为和WPS联手攻克难题:一句话生成PPT、PDF/Excel大文件秒开

快科技 浏览 2728

珍珠专场|| 无论18岁还是80岁,总是会为它再一次心动

黎贝卡的异想世界 浏览 3013

17岁男生提供电话卡给网诈团伙被判8个月 称获利997元

红星新闻 浏览 9719

江汽集团董事长项兴初拜访华为任正非,进一步拓宽合作领域

财闻 浏览 3235

新款比亚迪夏限时19.68万起售!上车天神之眼B激光版,支持城市NOA

车东西 浏览 3121

配备大尺寸中控屏 奇瑞T1Q内饰谍照曝光

车质网 浏览 3519

置换抢购价9.99万元起 捷途X70L正式上市

网易汽车 浏览 4549

政务大模型部署,重磅文件印发

智东西 浏览 3330

美航母调往中东 特朗普:拭目以待

扬子晚报 浏览 2953
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1