关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者1376人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

郑爽在美国越混越差!打官司诉讼费都掏不起,前夫张恒比她还沦落

萌神木木 浏览 616

秦雯编剧电视剧被央视撤档 此前王家卫秦雯录音惹争议

鲁中晨报 浏览 14744

这些才是适合普通人的穿搭!秋天多穿蓝色单品和风衣,好耐看

静儿时尚达人 浏览 1473

宁波网友投诉到理发店理发被诱导消费:1次花了6万元

潇湘晨报 浏览 5803

中美欧大市场带动,全球车市1-9月销量涨5%

汽车公社 浏览 1477

萧煌奇妻子正面照曝光:是短发气质美女,双方否认是奉子成婚

素素娱乐 浏览 540

中网女单第三轮利斯挑落莱巴金娜

体坛周报 浏览 2136

卫宁健康实控人周炜犯单位行贿罪一审获刑一年半,其子被提名为非独董

红星资本局 浏览 1287

46岁港星回应 因钟嘉欣失落视后辞任TVB高层一职

TVB剧评社 浏览 227

《小城大事》主演爆雷!校园霸凌致女生精神分裂

萌神木木 浏览 482

全新宝马X5领衔 宝马2026巴黎车展阵容公布

车质网 浏览 51

男子夜钓遭枪击 家属:行凶者把猎枪扔河里 警方找7天

扬子晚报 浏览 5498

首款可折叠iPhone最新消息:或在2026年秋季发布

环球网资讯 浏览 1024

60+女性穿搭“高级感”秘诀:4个日常技巧,轻松美出优雅气质

静儿时尚达人 浏览 485

杨振宁留给中国的最重要遗产,恰恰很不“中国味”

钛媒体APP 浏览 1601

柬埔寨内政部:柬泰冲突已致31名柬平民死亡

国际在线 浏览 696

搭上芯片“黑马”新凯来的光伏龙头,高管集体减持,股价大跌超7%

红星资本局 浏览 1639

从“海燕”到“波塞冬” 俄密集官宣捷报有何考量?

极目新闻 浏览 1487

【中超】埃杜加西亚梅开二度 9人深圳客场2比1三镇

体坛周报 浏览 1488

金种子酒1.26亿卖掉金太阳药业,能否“轻装上阵”突围亏损困局?

征探财经 浏览 1362

24岁小伙深夜聚餐当场吐血 医生从他肺部取出一枚笔帽

环球网资讯 浏览 4639
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1