爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

中哈联合育种...

38岁的陈伟...

短上衣的最佳...

夏季气息满满...

美的越南市场...

电子后视镜/...

特斯拉称投资比特币后市值蒸发2000亿美元

俄罗斯：瓦格纳将向军队移交重型武器

芒特曼联体检加盟时间确定！巴西铁腰恐离队，穆帅有意引进却没钱

长得帅还性能出众上汽大众旗舰纯电轿车ID.7 S来了

保时捷在华增设研发分支，为未来布局，促进本地产品开发

氢燃料电池已不被日本卡脖子了！

141家上市大厂被AI耍了！谷歌意外成帮凶

日本＂全球最大＂反导战舰露真容

世界杯让077休赛期持续苦练！斯洛文尼亚主帅：一切需他自己评估

东部战区护卫舰实兵实弹训练

电动车门槛低！特斯拉能造，百度们也能？

抖音新百万粉网红出现，这个瓜把我看破防了

明明美到雌雄难分，却痴缠渣男20多年

法甲：马赛2比1客胜斯特拉斯堡

推特崩了？马斯克出手：限流！

＂被责令整改＂鱼塘深夜被挖毁损失数百万官方称不知情

没上映票房就破2400万，邓超加陈凯歌都压不住，国庆档冠军定了？

吉利豪越系列新成员曝光豪越PRO将于1月上市

黄晓明和angelababy带小海绵到医院看病

雷军再曝小米汽车猛料，2月22日有大瓜？

35岁赵丽颖晒卖萌自拍表情可爱似少女！

科学家发现地球最小爬行动物，最大体长仅29毫米

吴千语疑获富三代男友求婚一个小动作被猜已订婚

谣言热榜 | 六月朋友圈十大谣言新鲜出炉