爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

限时换新价1...

想要裙子穿得...

无撕×，照样...

评论丨网购衣...

冬季小个子女...

CES 20...

优惠12万卖不掉的Macan，保时捷坑苦了中国富人？

“softcore柔系美式”穿搭今年冬天爆火，松弛又减龄！

日本自卫队高官率队参拜靖国神社遭调查

见证历史，瑞银宣布收购瑞信；海外欠债9.8亿？张兰回应：被资本算计

周杰的负面标签到底哪些是真的？

新版《保管合同（示范文本）》发布进一步明确权责促进交易公平

富士通FMV Note A A77-K3笔记本：保留蓝光光驱，搭载AMD 7735U

2026开年，就创造了10个“第一”，这国综后劲真大

中方连对美＂重拳出击＂特朗普这才看清楚中国留了一手

没想到，人口下降的红利来得这么快！

辉瑞将对孕妇展开新冠疫苗试验到底是怎么回事？

三镇1-2新鹏城，杜加利奇破门，杨一鸣肘击染红，三镇全场0射正

零跑C10：半价的理想L6，开车不再用脚？

汪小菲霸气维护新女友，狂赞女方现实更美，张颖颖深夜痛哭称太傻

云迹科技通过IPO备案：营收2.5亿估值41亿腾讯阿里沸点是股东

今年冬天流行的“倒三角”穿法，时髦又高级！

黄石公交陷停运困境：电池衰减严重司机不敢开空调

父亲去世当天尹锡悦再发亲日言论强调＂日韩友好＂

风扇网红小玉租70元婚纱，在出租屋与大鹏结婚

湖人连签4人后凑10人名单！队记：小里水拉预计回归底薪引内线

圣米伦夺苏格兰联赛杯，进球队员赛后采访不慎爆粗后道歉

群兴玩具实控人麻烦多：正配合公安调查股权被拍卖

父亲辞职带9岁多动症儿子徒步60天：同行还有2组家庭

还在挑事儿！转播方晒昨日猛龙vs湖人罚球对比