关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101819人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻 浏览 19183

检察官多次家暴妻子 最后一次家暴后获评"郑州好市民"

上游新闻 浏览 75650

默多克五婚妻子是分子生物学家 前夫女儿都是亿万富豪

红星新闻 浏览 68279

媒体:特朗普关税战半年 市场没能打得开还弄丢了

新民晚报 浏览 6046

国产“万吨大驱”直面“硬仗”

环球网资讯 浏览 16492

瑞银汪涛:2024年中国经济展望——在房地产下行中“企稳”

Wind万得 浏览 12891

谁要搞垮农夫山泉?

大猫财经Pro 浏览 11288

想要一个不热的夏天 离不开这些户外短裤

TOPMEN男装网 浏览 15933

一场酣畅淋漓的“涅槃重生” 小鹏汽车破局后立

盖世汽车 浏览 12673

北控力挫南京豪取7连胜 追平队史最佳纪录 张帆6三分林葳20中6

林小湜体育频道 浏览 12948

神秘隐身机抵近琉球,日本没见过,F15J升空

浏览 11372

跨省调查结束!被延期留置150天后,德州首富平安返岗

壹只灰鸽子 浏览 744

马塞利诺:虽然很困难,但我们想要击败尤文图斯

懂球帝 浏览 1566

有反转?王力宏方发声否认李靓蕾在美国胜诉

网易娱乐 浏览 17151

月销破2万辆 极狐年销翻番在望 摸到准一线门槛

乐逗汽车 浏览 762

媒体:布林肯访华前与秦刚通话 中方提前给其划出底线

新京报评论 浏览 91399

辽宁舰正常演训 日本为何炒作所谓“雷达照射”问题

澎湃新闻 浏览 214

烧央行废政府,彻底自由化,阿根廷逆天候选人赢下初选

郎club 浏览 14544

1-6,3-6!朱琳连丢两盘不敌世界第一,温网惨遭一轮游

ALL体育 浏览 15852

驱动绿色智算 筑牢AIDC基石:华为携液冷热管理控制器TMU亮相2025CDCC大会

环球网资讯 浏览 499

以媒:总理内塔尼亚胡计划下月访华 其对美国失去耐心

环球网资讯 浏览 87035
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1