关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4431人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

港媒:香港武打明星梁小龙离世,享年77岁

界面新闻 浏览 3503

男子称爷爷坟里埋了200万 女友给他272万发现其是老赖

潇湘晨报 浏览 8392

巴基斯坦总理在联大敲桌子强调"自卫权"

北京日报 浏览 3772

报告称机械硬盘价格触底反弹,平静2年后将迎新一轮涨价潮

IT之家 浏览 3918

俄罗斯多地遭袭

极目新闻 浏览 3535

国内首个开放式机器人租赁平台在沪发布,已触达50个重点城市

澎湃新闻 浏览 3818

特朗普:内塔尼亚胡执政前景“存在不确定性”

环球网资讯 浏览 4710

毛不易演唱会撒圆形纸钱,本人:这吉祥吗?

一家说 浏览 5128

小S的第3个女儿发自拍照,14岁就很漂亮,外形完成惊艳蜕变

素素娱乐 浏览 2992

还是他,太敢说了!果然有些车企,只是把激光雷达卖给你,当摆设

小李车评李建红 浏览 3802

哈登致意艾弗森:我现在所经历的一切,正是当年你走过的路

懂球帝 浏览 647

综合补贴8.78万元起 星光730尊享型正式上市

网易汽车 浏览 1505

汽车销售巨头破产清算:总部人去楼空 子公司贴上封条

每日经济新闻 浏览 7947

黄慧颐手撕保剑锋 曾黎意外卷入风波

第一娱记 浏览 3548

美陆军部长抵达阿联酋首都 与俄“秘密会谈”

环球网资讯 浏览 4141

解码科创成长层药企2025年成绩单

北京商报 浏览 1399

定位顶级奢华MPV 奔驰VLE测试谍照曝光

车质网 浏览 3726

年内首家省级农商行挂牌不到20天,快马加鞭启动第二批机构合并

湘财Plus 浏览 1992

张嘉倪带俩儿子迪士尼跨年,穿貂皮大衣好贵气

老吴教育课堂 浏览 3712

在纽约,香奈儿给每个人写了封情书

时尚COSMO 浏览 3381

美媒:参与对委军事行动的十余架F-22战机离开波多黎各

环球网资讯 浏览 9920
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1