关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷10137人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

​柳岩香港随拍照片曝光 穿白色印花裙赏夜景

蜜蜂会穿搭 浏览 14160

开出“科技之花”结出“产业之果”,这个研讨会聚焦青年创新力

文汇报 浏览 15542

普京穿军装看俄白军演:试戴热成像战术眼镜 装填手枪

新京报 浏览 896

铁!北京本场三分20中3 赛季首次连续两战三分命中率不足20%

直播吧 浏览 18635

天赋大战!崔永熙25分4数据全场最高完胜林葳15中4 乔帅没走眼

醉卧浮生的体育世界 浏览 19046

蔚来公布实习生事件调查报告:因无编制未留用

财经电报快讯 浏览 18383

记者谈马宁连出三红:密集出牌虽彰显权威,却也容易激化矛盾

懂球帝 浏览 434

孙怡恋情风波升级,被质疑知三当三

缘木不求娱 浏览 15166

网攻武汉地震监测中心事件发现境外情报机构特征

界面新闻 浏览 14376

西班牙诞生世界首个带新冠抗体婴儿,母亲在怀孕3月时已接种疫苗

趣看热点 浏览 25101

草根出身的“苦命女星”,41岁怀孕,落子无悔却人人替她冤屈

娱乐白名单 浏览 12204

告别羽毛球自由,中产迷上匹克球

虎嗅APP 浏览 418

5轮首球,维拉在赛季开始427分钟才收获首球,英超历史第三晚

直播吧 浏览 976

今年流行的时髦裤子,都是给腿粗的人准备的!

In风尚 浏览 18783

马斯克向左,黄仁勋向右

汽车公社 浏览 10527

就任后的首次国事访问 马尔代夫总统选择了中国

上观新闻 浏览 72967

东超终极四强赛:富坚勇树28+5 千叶喷射机力克新北国王晋级决赛

直播吧 浏览 11436

10倍压缩率,97%解码精度!DeepSeek开源新模型,为何赢得海内外关注

澎湃新闻 浏览 251

俄军缴获的西方装备展览在俄罗斯莫斯科州开幕

看看新闻Knews 浏览 13921

萨巴伦卡和小白菜爆发口水战,直面总统事件公开替自己喊冤

网球之家 浏览 15865

澳波:最后10分钟能看到维拉已经很疲惫;不能吹捧这场胜利

懂球帝 浏览 11288
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1