关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯11381人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

长得帅还性能出众 上汽大众旗舰纯电轿车ID.7 S来了

网易汽车 浏览 11416

保时捷在华增设研发分支,为未来布局,促进本地产品开发

撩车视界 浏览 19409

氢燃料电池已不被日本卡脖子了!

网易财经 浏览 15039

141家上市大厂被AI耍了!谷歌意外成帮凶

量子位 浏览 14510

日本"全球最大"反导战舰露真容

中国青年报 浏览 13388

世界杯让077休赛期持续苦练!斯洛文尼亚主帅:一切需他自己评估

直播吧 浏览 13471

东部战区护卫舰实兵实弹训练

环球网资讯 浏览 14845

电动车门槛低!特斯拉能造,百度们也能?

态℃ 浏览 24251

抖音新百万粉网红出现,这个瓜把我看破防了

雷科技 浏览 10456

明明美到雌雄难分,却痴缠渣男20多年

TVB的四小花 浏览 24

法甲:马赛2比1客胜斯特拉斯堡

体坛周报 浏览 26

推特崩了?马斯克出手:限流!

每日经济新闻 浏览 14526

"被责令整改"鱼塘深夜被挖毁损失数百万 官方称不知情

红星新闻 浏览 87277

没上映票房就破2400万,邓超加陈凯歌都压不住,国庆档冠军定了?

靠谱电影君 浏览 22

吉利豪越系列新成员曝光 豪越PRO将于1月上市

网易汽车 浏览 11668

黄晓明和angelababy带小海绵到医院看病

趣看热点 浏览 25367

雷军再曝小米汽车猛料,2月22日有大瓜?

汽场汽车APP 浏览 11363

35岁赵丽颖晒卖萌自拍 表情可爱似少女!

侦探娱乐 浏览 13862

科学家发现地球最小爬行动物,最大体长仅29毫米

趣看热点 浏览 24942

吴千语疑获富三代男友求婚 一个小动作被猜已订婚

TVB剧评社 浏览 18449

谣言热榜 | 六月朋友圈十大谣言新鲜出炉

中国基金报 浏览 9716
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1