关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12315人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

8.88万起终身质保 威麟R08把皮卡玩成“理财产品”

网易汽车 浏览 1467

加州理工中国博士发现“吃苦神经元”,揭示盐摄取神经通路,为人体水盐平衡调控提供新角度

DeepTech深科技 浏览 12312

迈克尔·杰克逊女儿拿到4.6亿仍要索赔

译言 浏览 621

哈登旧伤复发再伤退,篮网对阵尼克斯略显颓势

趣看热点 浏览 24691

美H-1B签证申请费猛增至10万美元 印度政府发出警告

澎湃新闻 浏览 17382

井柏然刘雯在机场高调同框 飞东京旅行

八怪娱 浏览 14338

理想MEGA车主声明: 车辆系突发自燃并非电池包破损

网易汽车 浏览 653

温碧霞一家3口出游,13岁养子越长越像富豪父亲

叶公子 浏览 14268

志愿军"冷枪英雄":用206颗子弹杀敌203人 受金成日接见

极目新闻 浏览 5683

赵伟:“四中”前瞻:新“五年”的新期待

首席经济学家论坛 浏览 711

道指收涨0.04%,微软叫板苹果“全球市值最高”头衔

中新经纬 浏览 12538

真要卖了!中国海军052D亮相中东防务展"推销"自己

军武速递 浏览 93918

被记者询问涉移民言论 德国总理回呛"问你们女儿去吧"

环球时报国际 浏览 8180

引力一号遥二运载火箭发射成功

环球网资讯 浏览 875

李昇基回应结婚争议 称妻子父母贪污巨款是误报

网易娱乐 浏览 19909

俄外长:向乌提供“战斧”将让俄美关系出现最危险局面

上观新闻 浏览 767

牵手长安汽车,京东、宁德时代继续拓新

观察者网 浏览 820

“这条裙子”才是今年的顶流,怎么搭都时髦

LinkFashion 浏览 832

美国新提议:把加沙一分为二 先重建以色列控制区

澎湃新闻 浏览 636

乌记者询问中方是否计划向乌提供援助 外交部回应

上观新闻 浏览 16288

唐嫣分居风波后首露面,穿西装出席女性对话会,男方IP显示北京

萌神木木 浏览 648
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1