关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者1070人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

学生想从公交前门下遭拒 轻声骂了句被司机追下车打伤

大风新闻 浏览 4707

两种动力可选 全新雷克萨斯ES将于4月上市

车质网 浏览 1137

美女克拉拉官宣离婚,6年豪门婚姻告终

代军哥哥谈娱乐 浏览 2446

认真生活的18个锦囊妙计:

黎贝卡的异想世界 浏览 4143

《唐朝诡事录3》第一波真实口碑出炉!

娱乐圈笔娱君 浏览 2291

俄大使披露:美军控制马杜罗时 没打算让任何人活下来

扬子晚报 浏览 5855

黄金有关税收新政落地首周,市场各方反应如何?

中国商报 浏览 2218

潘玮柏妻子宣云晒与戚薇、胡杏儿的瑞士度假合照

张例喜欢软软糯糯 浏览 538

吴佩慈68岁"婆婆"在美国被捕 儿子靠做"叠码仔"起家

上游新闻 浏览 12157

王欣瑜不敌小白菜生涯首冠继续迟到,中国网球仍成奥克兰最大赢家

网球之家 浏览 1374

走过五年黑暗隧道后,江小白靠一瓶酒杀回来

财经无忌 浏览 1344

主打家用泛越野 哈弗大狗PLUS售13.58万起

网易汽车 浏览 3201

北向资金三季度持仓曝光:宁德市值第一,京东方A获增持股数最多

澎湃新闻 浏览 2492

大电池增程成风,车企在堆料自嗨?

帮宁工作室 浏览 2021

“这条裙子”今年冬天火出圈,全世界的时髦女人都在穿

LinkFashion 浏览 1557

曝娜扎被抢休息室,刘亦菲聊天监听,后台大瓜!

萌神木木 浏览 2105

上班族秋天穿什么?衬衫为主、外套选择基础款,得体又大方

静儿时尚达人 浏览 4117

阿斯:瓜帅执教曼城已完成超70笔引援,花费金额超20亿欧

懂球帝 浏览 1249

今年冬天最流行的4双鞋,配阔腿裤时髦又高级!

LinkFashion 浏览 1324

铜梁龙李镇全谈冲超:有这么多人支持我们,为什么不能冲超?

懂球帝 浏览 2213

中国灵芝第一股寿仙谷,致敬保健产业30年

证券市场周刊 浏览 3224
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1