关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12326人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

西亚卡姆:球队的篮板是个大问题 我们必须团结起来解决它

直播吧 浏览 13357

德约六王赛退赛向观众道歉遭网友怒喷来捞钱,球迷用成绩狠狠打脸

网球之家 浏览 721

塔图姆谈防守华子:我所做的全部就是想告诉他 别想在今天爆发

直播吧 浏览 12730

再也等不到的合作,吴孟达因肝癌救治无效去世

趣看热点 浏览 26288

美国"空军和太空部队公共事务主任"死于五角大楼?

澎湃新闻 浏览 19226

卡德罗夫再谈"瓦格纳事件":批普里戈任"傲慢自大"

环球网资讯 浏览 15584

加州理工中国博士发现“吃苦神经元”,揭示盐摄取神经通路,为人体水盐平衡调控提供新角度

DeepTech深科技 浏览 12329

队报:比赛中拉门斯的长传频繁且精准,推动了曼联的战术转型

懂球帝 浏览 578

戴安娜王妃的珠宝"沦落"到拍卖?

《买手客buyerkey》 浏览 15865

量子位「MEET2026智能未来大会」启动!年度榜单征集中

量子位 浏览 832

东体:丛震正在跟随津门虎试训,租借还是转会尚未确定

趣看热点 浏览 25844

消息称苹果iPhone14系列官方保护壳将推新色

Tech星球 浏览 18951

超400项功能更新 极越01发布大版本OTA升级

网易汽车 浏览 12684

五门版悦也官图发布,命名“宝骏悦也PLUS”

天天汽车 浏览 12188

奥斯卡大赢家:诺兰首部有原著的电影

商业周刊中文版 浏览 11219

惠普暗影精灵11《英雄联盟》典藏版月底开售,海克斯金色线条装饰

IT之家 浏览 676

郑恺2个月胖了40斤,为了真实演绎出运动员中青年的前后反差感

趣看热点 浏览 28586

知名男演员景区打工两个月成"顶流NPC" 本人回应

极目新闻 浏览 5918

安徽蚌埠办音乐节在桥上建围挡引质疑 几天后又拆除

环球网资讯 浏览 88787

OpenAI的iPhone时刻到了?

北京商报 浏览 12512

4400亿!中证A500指数基金一周年:总规模增近50%,近80家基金公司下场

券商中国 浏览 1385
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1