关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11562人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美方:俄不太可能从美无人机上获取有价值信息

环球网资讯 浏览 34570

逆光派对加冕年度总冠军!首届“怒放竞技场”厦门圆满落幕

直播吧 浏览 14253

2T还不到500块的固态硬盘,背后的故事还挺复杂

差评 浏览 15600

许利民暴怒狂批11分钟:输的是人是尊严 再这样季后赛都进不去

醉卧浮生 浏览 148

当奥迪走上“对抗路”,特斯拉开始疲于招架

车市雷达 浏览 1427

这一抹瑞红,在2025年终

时尚COSMO 浏览 386

福原爱发推称被记者跟踪心情抑郁:直接问我就好

网易体育 浏览 26226

可恶!蔡明的这节目早知道留着春晚看了!

时尚COSMO 浏览 12061

申花球员:路易斯一看就是力量足的,能在葡超当队长肯定有活

懂球帝 浏览 13313

秋季穿衣别太复杂,提前准备好这几件单品,百搭经典又不挑人

静儿时尚达人 浏览 1516

苹果头显遇“麻烦” 华为四年前已注册Vision Pro商标

金融界 浏览 16932

尤文伤情更新:小基耶萨麦肯尼已能合练,拉比奥特得等到周四

直播吧 浏览 12953

“十五五”规划建议:共有15个部分、61条,分为三大板块

国是直通车 浏览 1256

双剑合璧:科创板、创业板的重大改革与长期投资价值

尺度商业 浏览 1223

2025年首例被北交所暂缓审议的企业出炉 永大股份上市缘何待考?

叩叩财讯 浏览 948

传华为上调2023年手机出货量目标至4000万部

北京商报 浏览 16468

收手吧沈腾,新片耗资1亿,预售票房仅15万

靠谱电影君 浏览 583

和马蓉离婚9年后,自己的一双儿女开始为他争光了

TVB的四小花 浏览 2194

女子和33名男子开房:为还300万债务出卖肉体

汉史趣闻 浏览 94832

大选倒计时保守党民调仍大幅落后 英国政坛或将"变天"

上观新闻 浏览 64632

换装高功率电机,蔚来 firefly 萤火虫新车申报

IT之家 浏览 1106
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1