关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻18026人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

巴菲特TOP 10仓位公布!股神最新投资动向:钟情苹果,大抛台积电……

金融界 浏览 18017

美邦创始人回应“衣服丑价格贵” 女儿接手7年亏损32亿元

北京商报 浏览 11238

2023年夏季越看越爱的流行妆容!

猫姐品衣有道 浏览 15792

卫星通信+第二代青海湖电池 荣耀Magic6发布 售价4399元起

网易科技 浏览 11713

伊能静儿子万圣节cos照曝光 穿黑丝透视装姿势妖娆

萌神木木 浏览 12372

阳光保险,让人们拥有更多的阳光

网易财经 浏览 18014

智能体豪华旅行车 享界S9T30.98万元起售

网易汽车 浏览 312

全球交付25万架!百年飞机制造商深耕中国20余年,已成立两家合资公司

时代财经 浏览 17973

适合夏天的穿衣搭配,凉快又舒服!

In风尚 浏览 14312

辱骂西蒙尼的球迷:我没说种族歧视的话,也没提马岛战争

懂球帝 浏览 303

突发:阿斯巴甜或首次被认定为可能致癌物,可口可乐和这些产品也在用

爱范儿 浏览 14395

黄晓明深夜开大奔和女性约饭 杨颖剧组带娃好辛苦

盖饭娱乐官方号 浏览 17933

多一笔..2-5惨败..萨拉赫昔日谈欧冠战皇马:我们有笔账要算

直播吧 浏览 18144

游客在成都排火锅等5小时前面还有90多桌 无奈回酒店

红星新闻 浏览 79564

奥尼尔:投3分真太TMD爽了 羡慕现在的中锋 我打球时教练根本不让

直播吧 浏览 9722

RMC体育:沙特代表已抵达巴黎,与内马尔会谈了解他转会的兴趣

直播吧 浏览 19212

热巴《花少》被指表现过度!拿摄像机玩误删所有素材,打工人实惨

萌神木木 浏览 11708

北京共有产权房细则来了!满五年可按市场价买卖

华夏时报 浏览 15289

小S晒全家福为18岁长女庆生,与老公同框零互动,长女将赴美留学

娱絮 浏览 11715

拿捏红毯于股掌之中的女王,这次是“机械姬”

时尚COSMO 浏览 11207

AI到了要立法的时候吗?

中国新闻周刊 浏览 10105
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1