爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

量产版明年上...

星海T5预售...

谁是AI之王...

5轮首球，维...

猫头鹰联手P...

大普微浸没式...

富士康与英伟达合作，推动800伏直流电源架构落地AI数据中心

闫学晶首现身再传噩耗，这回真洗不白了

直接吹爆！年度最敢拍的禁片级港片出现了！

林永健批顶流进组带编剧乱改戏，网友总结合作演员，成毅被质疑

《阿凡达3》预测票房仅仅11亿，口碑翻车

赚了钱，反而有人说小鹏不是“小鹏”了？

为避免与白宫格斗冠军赛冲突法国推迟举行G7峰会

售14.98万方程豹钛3推501km后驱Ultra版

斯基拉：国米正计划加薪与皮奥续约到2031年

罗马诺：鲍勃转会富勒姆谈判进最后阶段，曼城坚持要3500万镑

科贝：卡尼萨雷斯质疑弗洛伦蒂诺的皇马所有制计划

鸿蒙智行发布“性能车”预告图，对手锁定小米SU7！

芒果这部剧，让人读懂“太平”二字的千钧重

严屹宽老婆41岁生日，婆婆送杜若溪万元大红包

超25亿港元南下抢筹！17家港股IPO获险资基石认购，泰康领衔重仓科技赛道

记忆｜慕津锋：追忆杨振宁先生

百度再战高德，还拉来了两大“帮手”

雷克萨斯高端纯电轿车不造了！丰田承认：卖太贵没人买

猛士汽车2025全年销量10228台同比增长387%

微胖女孩冬天怎么穿衣？看看这27套冬季穿搭LOOK，保暖又显瘦

女人年纪大了怎么穿？衣选长、鞋带跟，会叠穿，优雅有范儿

好消息，来了！

AI录音卡爆火90天：阿里下场，华强北低价围猎，一场恶战在所难免

十铨推出最新P35S外接SSD：按下按钮瞬间“自爆”！