关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻18043人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

衣服想要穿出高级感 这些套路你要知道

In风尚 浏览 17807

快讯|盒马发布春节蔬菜保价行动,20种民生蔬菜春节不涨价

网易科技报道 浏览 11052

收下这份巨显脸小的法式发型指南,时髦又好打理

In风尚 浏览 14495

有品位的女人,秋冬都在穿小白裤

搭配指南 浏览 11859

BLACKPINK成员LISA晒泳装照 疑和绯闻男友在约会

韩娱明星趣闻 浏览 13543

“这是逼我辞职的手段”!员工拒绝从上海调往南京被解雇,要求公司赔偿55万,法院:给44万

每日经济新闻 浏览 15292

欧盟红海护航行动将于2月19日启动

央视新闻客户端 浏览 11399

百度王海峰:飞桨开发者数量达800万,创建模型80万个

网易科技报道 浏览 13389

杨紫琼升级当奶奶 与富豪老公相拥亲吻高调撒糖

扒虾侃娱 浏览 11981

才发现“打底裤”居然这么时髦!掌握这3点精髓,谁穿谁好看

静儿时尚达人 浏览 11746

李佳琦遭上海反垄断办调查!官方回应:正在核实

萌神木木 浏览 12606

阿斯报:若报价达到4000万欧元,黄潜愿出售前锋杰克逊

直播吧 浏览 15502

外交部:希望欧盟和国际社会一道反对美国的经济胁迫

环球网 浏览 90865

瓦格纳集团领导人普里戈任坠机 外交部回应

环球网 浏览 84574

90年代妈妈们有多潮?穿一次妈妈的旧衣服就懂了

时尚搭配师Nicole 浏览 18469

系“两条腰带”,历久弥新的时髦法则

时装男士杂志 浏览 18327

综艺场面十分尴尬,宋丹丹问张翰:你的代表作是什么?你演过什么?

趣看热点 浏览 26657

赵嘉义:穆迪的表现大家有目共睹 杨瀚森非常有天赋

直播吧 浏览 11831

俄常驻联合国代表:现在对乌的和平条件将与去年不同

环球网资讯 浏览 89774

众好友齐聚为baby庆生 黄晓明一心做“围观群众”

网易娱乐 浏览 25761

本地生活第二梯队参战,谁能虎口夺食?

Tech星球 浏览 14807
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1