关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者23人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

官方:安德尔-伊恩比祖亚担任中乙广东铭途主教练

懂球帝 浏览 496

左脚低射破门,加纳乔成为切尔西队史第6位进球的阿根廷球员

懂球帝 浏览 1489

还是这些穿搭最适合秋天,以基础款为主、针织衫配裙子,很显气质

静儿时尚达人 浏览 1526

报道:哈塞特势头不稳,特朗普一些亲信推举沃什当美联储主席

华尔街见闻官方 浏览 850

继《沉默的荣耀》后又一黑马谍战作品

娱乐圈笔娱君 浏览 1246

E句话| 袁惟仁去世,前妻发长文送别

仙女事件簿 浏览 64

今年一定要拥有这件“爆火单品”,让你美出新高度

LinkFashion 浏览 711

已获海港等队邀约,茹子楠表态站好梅州这班岗:拼到最后一秒

懂球帝 浏览 1252

有种的冲这儿打!

电影最TOP 浏览 1622

西芒杜铁矿石准备装船,榨取中国钢企利益的时代该结束了

北向财经 浏览 1333

《繁花》声明翻车!官微开始紧急删评,主演胡歌唐嫣等全被牵连

萌神木木 浏览 1305

AI时代,重做ERP

钛媒体APP 浏览 1649

54岁闫妮和27岁女儿同框,母女性格相似如姐妹

小咪侃娱圈 浏览 1551

黎智英等9名被告人一连4日进行求情 香港大量警员戒备

扬子晚报 浏览 10820

上海AIGC创作者论坛成功举办,IPSH发布全球伙伴计划

澎湃新闻 浏览 2173

美国演员约翰尼-德普现场观看博卡比赛,并与里克尔梅合影

懂球帝 浏览 1223

寻找AI的杀手级应用:机器人、智能驾驶和智能可穿戴设备

21世纪经济报道 浏览 2056

阿维塔求变:抱紧华为、告别个性走向大众

经济观察报 浏览 1112

特朗普与高市早苗首次会晤 外交部回应

政知新媒体 浏览 13617

全球1~8月电池装机量,韩系继续败退

汽车公社 浏览 1621

沃什被提名次日 特朗普:不降息就把他告到裤子都不剩

极目新闻 浏览 6631
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1