关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3447人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美联储112年来最富的主席,要改规矩了!

米筐投资 浏览 298

你看到的不是奔驰纯电CLA,而是汽车的下一个20年

1号车盟 浏览 3130

保时捷下一代电动 718 Cayman 原型车路测图曝光

IT之家 浏览 3694

硬核风格 奥迪Q6 e-tron越野版假想图曝光

车质网 浏览 3028

车崇健被嘉宾集体吐槽!Papi直言他听不懂人话,网友喊话别复合了

萌神木木 浏览 3362

仅买10天的哈弗大狗高速上突发变速箱故障 车主后怕

大风新闻 浏览 25922

精锋医疗明日上市:募资12亿港元 腾讯与中东资本加持

雷递 浏览 2593

百年老字号的资本挑战:携创收单品安宫牛黄丸,同仁堂医养四冲港股|港E声

时代周报 浏览 2412

弗里克:我以前没遇到过这种情况,明天想把不可能变成可能

懂球帝 浏览 1804

雷军回应YU7首拆:欢迎同行和专家指点

盖世汽车 浏览 3299

将于6月上市 上汽大众途观L ePro谍照曝光

车质网 浏览 2307

缔造仙女梦的人,去了天堂继续缝制星光✨

黎贝卡的异想世界 浏览 2484

《逍遥》最大谜团:村民献祭妹妹给树妖,为何秉烛只恨妖不恨人?

肆季娱乐 浏览 2611

海AI实验室团队揭秘:LLM训练新招数让AI学习效率提升36%

科技行者 浏览 2349

下辈子换我长郑恩彩这样好吗?

时尚COSMO 浏览 2776

这家华字辈企业,下一个科技巨头?

华商韬略 浏览 3485

机器人,又杀出了第一股

投资家 浏览 2977

纯电续航可达700km AMG GLC 53 EQ谍照曝光

车质网 浏览 2750

文淇签约陈坤周迅舒淇公司,成为张婧仪同事

师维 浏览 2213

独特艺术理解 宾利Batur定制车型官图发布

车质网 浏览 2451

实测 Kimi K2.5 新版本,一键让一群 AI 来给我打工。

差评XPIN 浏览 2364
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1