关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位10138人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

富力老板深陷“行贿案”!富二代却逃过一劫

金融八卦女 浏览 14912

重庆又来了个鼠头鸭

顾子明说 浏览 14574

NASA收获太空萝卜,将于明年被送回地球进行研究

趣看热点 浏览 24414

以军对黎巴嫩真主党多个目标发动空袭

环球网资讯 浏览 11656

王大陆官宣新恋情,承认与女主播交往

扒虾侃娱 浏览 11777

阿卡迎大考,德约面挑战!

网球之家 浏览 15455

甘肃地震兰州震感明显 的哥收留满月宝宝在车内取暖

上游新闻 浏览 73478

陈家东“拍脑袋”搞政绩工程大量烂尾:不调研可行性,选址靠风水师

上游新闻 浏览 11866

向佐让药水哥买保险,向佐和药水哥是在上演大型连续剧吗!

趣看热点 浏览 24592

重磅!国务院机构改革方案公布 一图读懂13项重要变化

人民日报客户端 浏览 98512

当我们在讨论老钱风我们在讨论什么

潮范儿 浏览 14917

媒体:马英九深知首访大陆的政治效应 决定不访问北京

枢密院十号 浏览 105889

有一个学霸人设崩塌?九漏鱼怎么都游向了娱乐圈

八卦三缺一 浏览 11815

哈登得偿所愿被交易至篮网,三巨头聚首剑指联盟总冠军

趣看热点 浏览 24470

银行|贷后检查未尽职 民生银行大同分行被罚40万元

网易财经 浏览 11074

73岁王石自曝:有一个3岁女儿

房地产导刊 浏览 11784

网红大衣哥喜当爷爷 儿媳晒出了双胞胎照片

扒圈818 浏览 15301

周鸿祎、冯仑等企业家组团找董宇辉学习网红经济

三言科技 浏览 11036

你不知道的《城市猎人》幕后冷知识_是王晶与成龙首次也是唯一一次合作

趣看热点 浏览 25330

杀妻嫌犯李小龙在山里潜藏一夜 下山时被巡逻民警发现

红星新闻 浏览 76917

除了应对美国断供,华为自研基础软件还为什么

财经十一人官方 浏览 18260
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1