关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻18025人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

记者:巴萨将加薪续约哈维,并会退还当初他自费加盟俱乐部的费用

直播吧 浏览 13337

前前前股东1999年违规担保,宏发股份被冻结4807万!二审判决来了……

创作者_1486537600008 浏览 13456

别再尬演角色黑化了 演技不够眼妆来凑?

置身事内 浏览 18174

波兰警方突袭总统府拘捕前部长及其副手 杜达表态

环球网资讯 浏览 11531

当我们在讨论老钱风我们在讨论什么

潮范儿 浏览 14895

美军疑用"刀片导弹"击杀民兵组织指挥官

环球网资讯 浏览 11410

王毅:中国愿做促进全球增长的稳定力量

经济观察报 浏览 11392

售20万元起,2024款极氪X正式上市

天天汽车 浏览 11297

霍启刚夫妇带儿子看舞剧,朱玲玲一同前往

娱乐团长 浏览 11967

戴向宇曾单方面通知家人要和陈紫函离婚

乡野小珥 浏览 275

媒体:瓦格纳欲撤出巴赫穆特 或与苏丹局势有关

新民周刊 浏览 17627

老黄赢麻了!英伟达市值超过8个英特尔

量子位 浏览 13398

韩媒:时隔5年韩美启动大规模联合登陆演习

环球网资讯 浏览 18551

赛季首冠+国羽第2冠!凡晨2-1超级逆转夺冠 决胜局24-22险胜

醉卧浮生 浏览 11090

中超-马莱莱破僵后伤退路易斯传射 申花2-0西海岸

网易体育 浏览 11455

中国国防费公开透明合理适度 比上年执行数增长7.2%

国防部发布 浏览 10317

立陶宛称中国有可能干涉立陶宛大选 外交部:没有兴趣

外交部网站 浏览 81125

有一个学霸人设崩塌?九漏鱼怎么都游向了娱乐圈

八卦三缺一 浏览 11796

十几位主播围住96岁摆摊奶奶蹭流量,网友直呼疯子们饶了奶奶吧!

趣看热点 浏览 24312

吴绮莉独自喝苦瓜汤 分享早年工作旧照片忆苦思甜

素素娱乐 浏览 14401

可盐可甜 风行T5 EVO女神版亮相成都车展

网易汽车 浏览 19927
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1