关闭广告

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

量子位11556人阅读

彩云科技团队投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力，让小模型能打两倍大的模型！

ICML 2024高分论文，彩云科技团队构建DCFormer框架，替换Transformer核心组件多头注意力模块（MHA），提出可动态组合的多头注意力（DCMHA）。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定，让它们可以根据输入动态组合，从根本上提升了模型的表达能力。

可以近似理解为，原来每层有固定的H个注意力头，现在用几乎同样的参数量和算力，可按需动态组合出多至HxH个注意力头。

DCMHA即插即用，可在任何Transformer架构中替换MHA，得到通用、高效和可扩展的新架构DCFormer。

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

阿维塔第21万辆正式下线

三言科技浏览 1196

市值缩水数千亿港元：碧桂园、融创和富力跌成“仙股”

澎湃新闻浏览 14908

2005→2024！官方晒詹姆斯首次全明星和今天的扣篮对比

直播吧浏览 12405

男子租车遇划痕被车主索赔900元报警后赔偿立减400元

大风新闻浏览 33748

台军被爆要把弹药藏在民宅回应称未实质性存放

环球网资讯浏览 13482

复旦哲学教授：ChatGPT的最大瓶颈和人工智能的未来

澎湃新闻浏览 18509

兹维列夫脚踝受伤遭横扫，严重肿胀紧急求医，总决赛征程蒙上阴影

网球之家浏览 1217

美国学术界罢工潮之后，博士后起薪涨至七万美元？

知识分子浏览 13412

夏天不建议大家穿的4种颜色，显肤色暗沉还油腻，看看你有没有？

潮人志Fashion 浏览 12257

史上最强量产＂911＂保时捷911 Turbo S 亚洲首秀

网易汽车浏览 1171

搭载雷神AI电混2.0技术吉利银河星耀7申报信息发布

网易汽车浏览 1484

中邮基金换帅！权益规模下降，中邮核心成长混合为何业绩垫底？

Daily每日财报浏览 610

大摩看空宁德时代遭怼多位电新首席分析师隔空叫板

财联社浏览 17179

新能源车销售月薪多少？蔚来理想亮了，比亚迪笑了

汽车公社浏览 13010

杨丞琳霸气回怼网友恶意截图：称其为霸凌行为

网易娱乐浏览 19620

SU7失控起火致1死小米官方和雷军始终未直接回应

第一财经资讯浏览 5600

原来做自媒体的“成功心法”都是同一个

黎贝卡的异想世界浏览 1310

冬天这么穿，秒瘦10斤

Yuki女人故事浏览 13857

秦始皇和汉武帝谁厉害？秦始皇和汉武帝谁的功劳大?

趣看热点浏览 26559

新增车道级导航与全向记录仪腾势N9迎重磅OTA升级

网易汽车浏览 1407

邱毅：两岸统一的脚步越来越近

环球网资讯浏览 1011

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

一波未平一波...

外交部：希望...

现实比《新闻...

新款本田飞度...

X把伊朗国旗...

杜兰特错失绝...

跟队：在无缘坎塞洛之后，国米目前并没有明确任何引援替代者

港圈两大顶流回归，也救不了这片

端水大师！邓超两次亮相红毯陪完孙俪陪鹿晗

阿维塔第21万辆正式下线

市值缩水数千亿港元：碧桂园、融创和富力跌成“仙股”

2005→2024！官方晒詹姆斯首次全明星和今天的扣篮对比

男子租车遇划痕被车主索赔900元报警后赔偿立减400元

台军被爆要把弹药藏在民宅回应称未实质性存放

复旦哲学教授：ChatGPT的最大瓶颈和人工智能的未来

兹维列夫脚踝受伤遭横扫，严重肿胀紧急求医，总决赛征程蒙上阴影

美国学术界罢工潮之后，博士后起薪涨至七万美元？

夏天不建议大家穿的4种颜色，显肤色暗沉还油腻，看看你有没有？

史上最强量产＂911＂保时捷911 Turbo S 亚洲首秀

搭载雷神AI电混2.0技术吉利银河星耀7申报信息发布

中邮基金换帅！权益规模下降，中邮核心成长混合为何业绩垫底？

大摩看空宁德时代遭怼多位电新首席分析师隔空叫板

新能源车销售月薪多少？蔚来理想亮了，比亚迪笑了

杨丞琳霸气回怼网友恶意截图：称其为霸凌行为

SU7失控起火致1死小米官方和雷军始终未直接回应

原来做自媒体的“成功心法”都是同一个

冬天这么穿，秒瘦10斤

秦始皇和汉武帝谁厉害？秦始皇和汉武帝谁的功劳大?

新增车道级导航与全向记录仪腾势N9迎重磅OTA升级

邱毅：两岸统一的脚步越来越近

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

一波未平一波...

外交部：希望...

现实比《新闻...

新款本田飞度...

X把伊朗国旗...

杜兰特错失绝...

跟队：在无缘坎塞洛之后，国米目前并没有明确任何引援替代者

港圈两大顶流回归，也救不了这片

端水大师！邓超两次亮相红毯 陪完孙俪陪鹿晗

阿维塔第21万辆正式下线

市值缩水数千亿港元：碧桂园、融创和富力跌成“仙股”

2005→2024！官方晒詹姆斯首次全明星和今天的扣篮对比

男子租车遇划痕被车主索赔900元 报警后赔偿立减400元

台军被爆要把弹药藏在民宅 回应称未实质性存放

复旦哲学教授：ChatGPT的最大瓶颈和人工智能的未来

兹维列夫脚踝受伤遭横扫，严重肿胀紧急求医，总决赛征程蒙上阴影

美国学术界罢工潮之后，博士后起薪涨至七万美元？

夏天不建议大家穿的4种颜色，显肤色暗沉还油腻，看看你有没有？

史上最强量产＂911＂ 保时捷911 Turbo S 亚洲首秀

搭载雷神AI电混2.0技术 吉利银河星耀7申报信息发布

中邮基金换帅！权益规模下降，中邮核心成长混合为何业绩垫底？

大摩看空宁德时代遭怼 多位电新首席分析师隔空叫板

新能源车销售月薪多少？蔚来理想亮了，比亚迪笑了

杨丞琳霸气回怼网友恶意截图：称其为霸凌行为

SU7失控起火致1死 小米官方和雷军始终未直接回应

原来做自媒体的“成功心法”都是同一个

冬天这么穿，秒瘦10斤

秦始皇和汉武帝谁厉害？秦始皇和汉武帝谁的功劳大?

新增车道级导航与全向记录仪 腾势N9迎重磅OTA升级

邱毅：两岸统一的脚步越来越近

端水大师！邓超两次亮相红毯陪完孙俪陪鹿晗

男子租车遇划痕被车主索赔900元报警后赔偿立减400元

台军被爆要把弹药藏在民宅回应称未实质性存放

史上最强量产＂911＂保时捷911 Turbo S 亚洲首秀

搭载雷神AI电混2.0技术吉利银河星耀7申报信息发布

大摩看空宁德时代遭怼多位电新首席分析师隔空叫板

SU7失控起火致1死小米官方和雷军始终未直接回应

新增车道级导航与全向记录仪腾势N9迎重磅OTA升级