关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1011382人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马斯克的Grok AI聊天机器人再现严重故障:混淆邦迪海滩枪击事件

IT之家 浏览 872

拉塞尔近10战场均26.2分&三分49.5% 在此之前14.6分&38.3%

直播吧 浏览 12977

4消息!孙铭徽特训累趴,朱荣振蜕变,解立彬或去北控,大王辟谣

篮球资讯达人 浏览 17407

都有哪些业绩稳健的基金?

阿尔法工场 浏览 757

美财长称中国是"不可靠的伙伴" 外交部回应

澎湃新闻 浏览 14427

历史性突破!中国车市年产销首破3000万,自主品牌销量超合资,新能源狂卖886万辆

车东西 浏览 13234

37岁高叶演“恶女”,连面相都变了?

娱乐圈笔娱君 浏览 1484

茅台冰淇淋部分门店暂停营业?知情人士辟谣

澎湃新闻 浏览 11568

“烟管裤”今年冬天爆火,怎么搭都时髦!

LinkFashion 浏览 807

朱啸虎们押注的300元AI玩偶,先得跑赢「退货潮」

豹变 浏览 1435

5年内在英国推出10款新车 吉利EX5伦敦上市售3.199万英镑起

网易汽车 浏览 1467

海空英雄高翔逝世 曾驾驶歼-6打爆美军机

澎湃新闻 浏览 448

住建部部长赶赴吉林,调研灾后农房恢复重建工作

澎湃新闻 浏览 15096

中国女导演在柬坠亡 监控显示其随一法国籍男子进门

新民周刊 浏览 6682

ABB与英伟达共同推进吉瓦级数据中心建设,800VDC供电架构引关注

环球网资讯 浏览 1697

贝克汉姆与儿子合力清路障 贝嫂大赞:有男子气概

译言 浏览 14951

比特币暴跌超20%!43万人爆仓,加密货币市场一片“哀嚎”

北京商报 浏览 1327

二手房业主抱团"保卫房价" 喊话:建议上调1万多 别贱卖

每日经济新闻 浏览 100262

AI+消费电子硬核“出圈”,华强北亮相CEIC 2025

南方都市报 浏览 1395

白玉兰奖争议不断!《繁花》三女主报名破坏规则,网友质疑玩特权

萌神木木 浏览 11515

江汽集团董事长项兴初拜访华为任正非,进一步拓宽合作领域

财闻 浏览 593
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1