关闭广告

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

量子位11562人阅读

彩云科技团队投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力，让小模型能打两倍大的模型！

ICML 2024高分论文，彩云科技团队构建DCFormer框架，替换Transformer核心组件多头注意力模块（MHA），提出可动态组合的多头注意力（DCMHA）。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定，让它们可以根据输入动态组合，从根本上提升了模型的表达能力。

可以近似理解为，原来每层有固定的H个注意力头，现在用几乎同样的参数量和算力，可按需动态组合出多至HxH个注意力头。

DCMHA即插即用，可在任何Transformer架构中替换MHA，得到通用、高效和可扩展的新架构DCFormer。

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

美方：俄不太可能从美无人机上获取有价值信息

环球网资讯浏览 34570

逆光派对加冕年度总冠军！首届“怒放竞技场”厦门圆满落幕

直播吧浏览 14253

2T还不到500块的固态硬盘，背后的故事还挺复杂

差评浏览 15600

许利民暴怒狂批11分钟：输的是人是尊严再这样季后赛都进不去

醉卧浮生浏览 148

当奥迪走上“对抗路”，特斯拉开始疲于招架

车市雷达浏览 1427

这一抹瑞红，在2025年终

时尚COSMO 浏览 386

福原爱发推称被记者跟踪心情抑郁:直接问我就好

网易体育浏览 26226

可恶！蔡明的这节目早知道留着春晚看了！

时尚COSMO 浏览 12061

申花球员：路易斯一看就是力量足的，能在葡超当队长肯定有活

懂球帝浏览 13313

秋季穿衣别太复杂，提前准备好这几件单品，百搭经典又不挑人

静儿时尚达人浏览 1516

苹果头显遇“麻烦” 华为四年前已注册Vision Pro商标

金融界浏览 16932

尤文伤情更新：小基耶萨麦肯尼已能合练，拉比奥特得等到周四

直播吧浏览 12953

“十五五”规划建议：共有15个部分、61条，分为三大板块

国是直通车浏览 1256

双剑合璧：科创板、创业板的重大改革与长期投资价值

尺度商业浏览 1223

2025年首例被北交所暂缓审议的企业出炉永大股份上市缘何待考？

叩叩财讯浏览 948

传华为上调2023年手机出货量目标至4000万部

北京商报浏览 16468

收手吧沈腾，新片耗资1亿，预售票房仅15万

靠谱电影君浏览 583

和马蓉离婚9年后，自己的一双儿女开始为他争光了

TVB的四小花浏览 2194

女子和33名男子开房：为还300万债务出卖肉体

汉史趣闻浏览 94832

大选倒计时保守党民调仍大幅落后英国政坛或将＂变天＂

上观新闻浏览 64632

换装高功率电机，蔚来 firefly 萤火虫新车申报

IT之家浏览 1106

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

德国暂停60...

尼格买提公主...

安理会会议将...

当众辱骂阿隆...

不用等AI毁...

四部门重拳出...

710公里续航只要15.99万，长安启源A07真香版，把价格战打明白了

视界大会短剧演员好尴尬！走红毯扎堆不给镜头，后台跟明星分开坐

特朗普称将会见泽连斯基讨论防空与远程导弹援助等

美方：俄不太可能从美无人机上获取有价值信息

逆光派对加冕年度总冠军！首届“怒放竞技场”厦门圆满落幕

2T还不到500块的固态硬盘，背后的故事还挺复杂

许利民暴怒狂批11分钟：输的是人是尊严再这样季后赛都进不去

当奥迪走上“对抗路”，特斯拉开始疲于招架

这一抹瑞红，在2025年终

福原爱发推称被记者跟踪心情抑郁:直接问我就好

可恶！蔡明的这节目早知道留着春晚看了！

申花球员：路易斯一看就是力量足的，能在葡超当队长肯定有活

秋季穿衣别太复杂，提前准备好这几件单品，百搭经典又不挑人

苹果头显遇“麻烦” 华为四年前已注册Vision Pro商标

尤文伤情更新：小基耶萨麦肯尼已能合练，拉比奥特得等到周四

“十五五”规划建议：共有15个部分、61条，分为三大板块

双剑合璧：科创板、创业板的重大改革与长期投资价值

2025年首例被北交所暂缓审议的企业出炉永大股份上市缘何待考？

传华为上调2023年手机出货量目标至4000万部

收手吧沈腾，新片耗资1亿，预售票房仅15万

和马蓉离婚9年后，自己的一双儿女开始为他争光了

女子和33名男子开房：为还300万债务出卖肉体

大选倒计时保守党民调仍大幅落后英国政坛或将＂变天＂

换装高功率电机，蔚来 firefly 萤火虫新车申报

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

德国暂停60...

尼格买提公主...

安理会会议将...

当众辱骂阿隆...

不用等AI毁...

四部门重拳出...

710公里续航只要15.99万，长安启源A07真香版，把价格战打明白了

视界大会短剧演员好尴尬！走红毯扎堆不给镜头，后台跟明星分开坐

特朗普称将会见泽连斯基 讨论防空与远程导弹援助等

美方：俄不太可能从美无人机上获取有价值信息

逆光派对加冕年度总冠军！首届“怒放竞技场”厦门圆满落幕

2T还不到500块的固态硬盘，背后的故事还挺复杂

许利民暴怒狂批11分钟：输的是人是尊严 再这样季后赛都进不去

当奥迪走上“对抗路”，特斯拉开始疲于招架

这一抹瑞红，在2025年终

福原爱发推称被记者跟踪心情抑郁:直接问我就好

可恶！蔡明的这节目早知道留着春晚看了！

申花球员：路易斯一看就是力量足的，能在葡超当队长肯定有活

秋季穿衣别太复杂，提前准备好这几件单品，百搭经典又不挑人

苹果头显遇“麻烦” 华为四年前已注册Vision Pro商标

尤文伤情更新：小基耶萨麦肯尼已能合练，拉比奥特得等到周四

“十五五”规划建议：共有15个部分、61条，分为三大板块

双剑合璧：科创板、创业板的重大改革与长期投资价值

2025年首例被北交所暂缓审议的企业出炉 永大股份上市缘何待考？

传华为上调2023年手机出货量目标至4000万部

收手吧沈腾，新片耗资1亿，预售票房仅15万

和马蓉离婚9年后，自己的一双儿女开始为他争光了

女子和33名男子开房：为还300万债务出卖肉体

大选倒计时保守党民调仍大幅落后 英国政坛或将＂变天＂

换装高功率电机，蔚来 firefly 萤火虫新车申报

特朗普称将会见泽连斯基讨论防空与远程导弹援助等

许利民暴怒狂批11分钟：输的是人是尊严再这样季后赛都进不去

2025年首例被北交所暂缓审议的企业出炉永大股份上市缘何待考？

大选倒计时保守党民调仍大幅落后英国政坛或将＂变天＂