关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1013979人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

扫街榜百日奇袭:高德正在成为AI时代的超级枢纽

光子星球 浏览 3247

特朗普宣布:美伊协议取得重大进展,暂停“自由计划”!美方:搭载美军的商船遭袭!伊朗:与美国处于战争状态,霍尔木兹海峡已关闭

每日经济新闻 浏览 989

从美国到东南亚,TikTok电商重心转移

虎嗅APP 浏览 5015

三代蔚来ES8最让车主感到遗憾的事情,就是砍掉老款的75kwh电池包

大志聊车 浏览 3124

这张外卡不白拿,40岁瓦林卡逆转取胜,最后一届澳网完美开局

网球之家 浏览 3107

徐彬:这边训练节奏快,能适应英国生活,语言已能听懂五六十

懂球帝 浏览 2952

随着阿森纳1-0领先,曼城0-1落后,英超最新积分榜:利物浦4连败

侃球熊弟 浏览 4203

OpenAI再度“挖墙角”,从谷歌挖来Albert Lee执掌公司发展

华尔街见闻官方 浏览 3452

12.28 万元起,奇瑞 iCAR 全新超级 V23“方盒子”SUV 上市

IT之家 浏览 4852

美经济学家:所谓对伊开战有利美国经济十分荒谬

国际在线 浏览 1622

外国女教师性侵16岁男学生数月上百次 详情炸裂

胡侃社会百态 浏览 39540

英伟达“跌倒”,寒武纪“吃饱”?

经济观察报 浏览 4260

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

潇湘晨报 浏览 8534

记者:西汉姆起初为帕奎塔标价6000万欧,球员也帮助促成降价

懂球帝 浏览 2984

11月十大必看短剧

仙女事件簿 浏览 3618

高盛看好标普500挑战8000点,这些因素会是绊脚石吗

第一财经资讯 浏览 320

企业只让新能源车进厂卸货 国六货车在门口换电动车头

重案组37号 浏览 7680

Anthropic发布金融AI代理,FactSet等数据服务商遭到冲击

华尔街见闻官方 浏览 946

国防部:中国不参与任何形式的军备竞赛

环球网资讯 浏览 4624

赵文卓夫妇送女儿上学,18岁赵子仪卷出高水准

凌风的世界观 浏览 3530

特朗普:伊朗知道该做什么 也知道不该做什么

齐鲁壹点 浏览 15278
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1