关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者21人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

24架F-35A隐身战机集结西太平洋

极目新闻 浏览 576

Coach与MK成为一家人,两大轻奢集团合并不放弃高端化

第一财经资讯 浏览 14326

夏日新风尚:西装短裤,优雅高级又显瘦

Yuki时尚酱 浏览 10334

鞠躬救不了大发汽车

汽车公社 浏览 11933

马英九将赴大陆祭祖:系首位"登陆"的台地区卸任领导人

极目新闻 浏览 110834

刘亦菲晒新照:墨镜长发气质佳,大长腿好抢眼!

笑猫说说 浏览 15373

菲防长:若中美在南海开火将参战美国赠予菲律宾军火武器

趣看热点 浏览 25352

冯小刚曝"非诚勿扰3"片场:葛优看剧本 范伟现身

影像温度 浏览 14794

中国联通原副总经理获刑12年 曾搞权色、钱色交易

政知新媒体 浏览 10003

中国航母前出行动相对固定,战术意图是什么?

浏览 10474

黄石公交陷停运困境:电池衰减严重 司机不敢开空调

界面新闻 浏览 85451

"里根"号航母高调访问岘港之际 越防长却到了中国

环球网资讯 浏览 15226

张译拍电影《悬崖之上》时,拍完电击酷刑后,他口吐白沫问张艺谋

趣看热点 浏览 26720

欧拉全新SUV亮相,或叫“欧拉5”?

电动邦 浏览 1139

以色列宣布:将扣押的数百名活动人士驱逐出境

环球时报国际 浏览 543

菲专家:马科斯是美国的喉舌 我有101%的把握

环球网资讯 浏览 67652

媒体:安世中国第3次硬核回击荷兰 已获国家强势撑腰

看看新闻Knews 浏览 5378

魅族 22 手机推送 Flyme 12.3.1.3A 稳定版更新

IT之家 浏览 103

逛上海时髦的街头店,记得带件泳衣

外滩TheBund 浏览 18732

52万元起售,电动Jeep想要“硬刚”特斯拉

上海汽车报 浏览 10306

伊姐周日热推:综艺《向往的生活-戏如人生》;电视剧《狸猫书生第二季》......

伊周潮流 浏览 591
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1