关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1013712人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

杨振宁逝世:改变了中国人觉得不如人的心理/库克:苹果AI正努力入华/GPT-5攻克「百年数学难题」遭反转|Hunt Good周报

爱范儿 浏览 4014

杰伦-约翰逊登顶老鹰队史三双榜 “新鹰王”已悄然诞生

仰卧撑FTUer 浏览 3355

比亚迪秦家族新款7.98万起售!爆胎稳定系统上车,综合续航超2000km

车东西 浏览 3000

王暖暖花6年才离掉婚 男方母亲曾带女子探监和他相亲

新京报 浏览 4149

《阿凡达3》第一波真实口碑解禁,国内票价却令人咋舌!

娱乐圈笔娱君 浏览 3304

MSC咨询合伙人金霞:可持续发展+AI,重构商业增长范式

南方都市报 浏览 3787

AI概念股重挫,纳指跌近1%,英伟达跌1.63%,软银狂泻12%,国际油价连续七天走高

第一财经资讯 浏览 798

俄副总理称亲自参战:用狙击步枪在乌军袭击时还击

鲁中晨报 浏览 3635

今秋这件“瘦瘦衫”必穿!巨in巨洋气,上身瘦十斤!

Yuki女人故事 浏览 4668

清华大学等多所顶尖院校联手揭秘智能数据准备革命

科技行者 浏览 2725

进行大量体能训练恢复,博格巴:我好像签约了马拉松俱乐部

懂球帝 浏览 4574

“电池车”全面压过“发动机”一头?油车时代的辉煌,被彻底终结

少数派报告Report 浏览 3386

李在明告诉CNN:不能将中国拒之门外

环球网资讯 浏览 7002

太强了!单月销量近9万?压着特斯拉打的“中国新势力”诞生了

少数派报告Report 浏览 2896

全球第一大女主,让内娱彻底红了眼

独立鱼 浏览 2892

消失1年,王子异自称得了抑郁症

失宠的小野猪 浏览 3122

2026手帐来了,因为它我实现了好多心愿

黎贝卡的异想世界 浏览 4012

莫斯科大学突破:普通照片实现房间结构与物品识别

科技行者 浏览 4013

碧姬·芭铎,“穿衣自由”概念的祖师奶

时尚COSMO 浏览 2399

冬奥总结:雪上项目当主角 中国刷新境外参赛最佳

体坛周报 浏览 2404

全红婵换新发型!在老家摘草莓好惬意

无处不风景love 浏览 2974
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1