爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

A股58家医...

短期资金配置...

35岁男子回...

孙怡恋情风波...

年中发布/细...

76人和步行...

黄有光：快乐可以完全用生活满意度衡量吗？

尼格买提公主抱大10岁朱迅，紧捂女方裙摆

电影之夜红毯生图：王一博长痘张子枫眼妆花了

拉夫罗夫：瓦格纳事件后俄变得更强大

保险|未按规定使用经备案的保险条款泰康在线被罚11万

美防长“瞒报住院”或暴露美军指挥链风险

20万级纯电SUV，该选飞凡R7还是小鹏G6？

车企价格战年底再升级：本月近20个品牌参战，小鹏新车上市不到半年就降价

津媒：联赛结束后津门虎不会立即放假，教练组将继续安排训练

一加 15 真机曝光，设计风格延续一加 13T

记者：米兰免签波波维奇的情况变得复杂，球员也被推荐给拜仁

别猜了，宝总最后跟我在一起了！

后排配娱乐屏/还有拖挂资质理想i6将于9月26日上市

迪士尼第三财季营收223.3亿美元 Disney+订阅用户数低于预期

瑞泰人寿任期超六年总经理离职！前三季净亏0.39亿，稳住局面靠什么

马拉戈：意大利惨败瑞士像开玩笑斯帕莱蒂感觉被场上球员背叛了

南安普顿官方：与主帅拉塞尔-马丁续约3年，上赛季带队冲超

2024上半年“上桌咖”观察：小生古偶内卷，小花自行设席

动作不断制造事端菲船只再度非法侵闯仁爱礁

5-1狂胜仍不敢怠慢！法鹰欧冠逆天赛程：马竞利物浦那不勒斯巴萨

日本研究运输机发射远程导弹可变身战略轰炸机

微软、动视暴雪要求美国法官加速处理 FTC 案件

这么穿，还怕十里没“桃花”？

众好友齐聚为baby庆生黄晓明一心做“围观群众”