关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3976人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

看了观众对何赛飞的评价,我才明白当年郭宝昌那番话的含金量

娱乐圈笔娱君 浏览 4031

澳大利亚刚插手台海就收噩耗 中方杀鸡儆猴停特殊待遇

时时有聊 浏览 18182

西班牙拒绝加入美国发起的“和平委员会”

国际在线 浏览 2886

轰-6k在黄岩岛战备警巡示意图公布

央视新闻客户端 浏览 2934

主打家用泛越野 哈弗大狗PLUS售13.58万起

网易汽车 浏览 4888

乔治亚理工学院联手微软:让AI训练效率暴增21%的神奇新方法

科技行者 浏览 3825

特朗普威胁对欧洲8国加税:直到美"彻底购买格陵兰岛"

红星新闻 浏览 7157

Veritas67-62科罗拉多预科,张博源砍26分+6记三分率队取胜

懂球帝 浏览 3398

动物纹回潮,那很狂野了

时尚COSMO 浏览 3087

利润暴跌99%,保时捷赚不到钱了?

汽车公社 浏览 3215

没补贴、收购置税,新能源车好日子到头了?现实会打服“恨电派”

小李车评李建红 浏览 4737

2026款大众迈腾上市 售价17.99-24.69万元

车质网 浏览 2912

伊姐周日热推:电视剧《重影》;电视剧《山河枕》......

伊周潮流 浏览 3369

缺芯影响扩大,大众宝马核心供应商被迫减产

华尔街见闻官方 浏览 3891

媒体:在美国对华政策调整刺激下 欧洲三大国都要访华

南风窗 浏览 33236

《一路繁花2》首波口碑,一针见血!

崽下愚乐圈 浏览 4055

生涯之夜!邹阳35+7三分创新高 福建大胜送四川开局9战全败

醉卧浮生 浏览 3215

再次掀翻AI圈!Sora2面前,MiniMax的另类打法

南方都市报 浏览 3918

突发!茅台真的换帅了

财通社 浏览 4019

美联储“独立性”面临挑战,华尔街想确定“是敌是友”,美联储新主席提名引发市场猜测

环球网资讯 浏览 2887

中移互联网、支付宝、华为合作,打电话也能聊AI、看菜单办业务

IT之家 浏览 3368
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1