爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

德国暂停60...

温碧霞一家3...

马克龙：希望...

这几件配饰太...

郑恺苗苗带孩...

曼晚记者：桑...

中国基站现身阿布扎比可远程遥控远在珠海的无人艇

50+女人冬季适合这样打扮，甩掉油腻感！得体优雅一点不显老

小波特：我们需要所有人都能出战这样化学反应才能达到最佳

赴港开户热潮再起:有人排队7小时黄牛2880元代预约

“杂交水稻之父”袁隆平逝世，世界上第一个成功地利用水稻杂交优势的科学家

一心堂反复违规背后：实体药店盈利难题未解

松弛的北京中产，占满了朝阳公园的草皮

Linus新年首骂：和谷歌大佬大吵4天，“你的代码就是垃圾”

以高官“鼓励加沙巴勒斯坦人迁移”引争议

被记者三次问及加拿大是否已申请加入“奥库斯”，加防长回避

气质女人春季最值得准备的三款单品，时尚又百搭，过了40岁也能穿

李靓蕾庆37岁生日许玮甯出席侯佩岑因工作没现身

皇马真GOAT=76岁老佛爷！治下已斩60冠军！即将官宣姆巴佩加盟

李靓蕾营业首次揭露婚变后生活谈官司胜诉却翻车

美国要求沙特在经济和军事上与中国保持距离

马拉多纳死因调查报告出炉，医疗团队被指严重失职

足力健卖水饺，吃干榨净老年人？

英超积分榜：热刺伯恩茅斯分列二、三狼队全败维拉西汉姆5轮3分

＂乌克兰战俘被枪杀＂视频疯传泽连斯基：将找到凶手

梅西带飞？迈阿密的卡伦德&克雷马斯基首次被选入美国初选名单

团队篮球！雷霆半场全队送出24次助攻创队史半场纪录

白敬亭带着无限流杀回来了，这剧真的很好看！

涉嫌欺诈发行股票罪！A股实控人夫妻被执行逮捕！曾动用92个账户爆炒自家股票，却血亏1200万……

学会这几个搭配技巧让你轻松穿出时髦感