关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2684人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普:美军将驻扎在伊朗境内及周边 美伊达成个共识

每日经济新闻 浏览 3205

华南理工大学发生车祸致1死1伤 目击者:车头明显受损

封面新闻 浏览 36443

兴业消费金融:筑梦美好生活 扎实推进高质量发展

财经众议院 浏览 1967

被记者询问涉移民言论 德国总理回呛"问你们女儿去吧"

环球时报国际 浏览 10355

文联春晚录制现场好真实!大咖太多没人惯着

萌神木木 浏览 1627

绝色美人赛道,太适合何晴了!

温柔娱公子 浏览 1775

俄外长:向乌提供“战斧”将让俄美关系出现最危险局面

上观新闻 浏览 2913

中国灵芝第一股寿仙谷,致敬保健产业30年

证券市场周刊 浏览 3644

三星首发2nm移动芯片:为拔头筹,不惜“开倒车”

雷科技 浏览 2070

建设周期长且成本高昂,欧盟多国重拾核能挑战巨大

环球网资讯 浏览 724

男子救人后发现场视频遭被救女子举报"侵权" 网友吵翻

新民晚报 浏览 8028

动力新提升 全新方程豹钛3将于上半年上市

车质网 浏览 1735

黄金、白银价格暴涨暴跌,投资者要警惕暴富“陷阱”,戒除豪赌心态

时代周报 浏览 1608

中行风险总监卸任,薪酬曾超131万元

华美财经 浏览 1884

媒体人:绿军双探花我会选杰伦-布朗,塔图姆已不是熟悉的他了

懂球帝 浏览 1947

凌晨4点利物浦保卫战!输球=英超5连败+72年之耻 标王缺席

叶青足球世界 浏览 2714

俄副总理称亲自参战:用狙击步枪在乌军袭击时还击

鲁中晨报 浏览 2558

权力重构?泽连斯基亲信部队高层遭反腐

浏览 6000

合肥夜空上演“硬核”科技告白:1024架无人机点亮AI愿景

中安在线 浏览 2749

小区因千万接口费欠款致600户居民3年未供暖 多方回应

大象新闻 浏览 7864

瓜迪奥拉:胡桑诺夫明天可上场踢几分钟;罗德里还没完全恢复

懂球帝 浏览 2812
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1