关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻18886人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

超微电脑Q1财季营收大幅下滑15%,毛利率暴跌至9%,盘后股价重挫10%

华尔街见闻官方 浏览 512

董明珠再回应“手机核心团队解散”:我现在用的就是格力手机,消费者用了都说好

每日经济新闻 浏览 16171

别总嫌弃经典牛仔裤 低调的时髦才出圈

男士穿衣搭配杂志 浏览 14949

市盈率10倍以内,估值历史新低白马股,未来潜力巨大

资本百科 浏览 11925

国产工业软件企业安世亚太拟IPO 中信证券辅导 中网投、保利、中车都投了

科创板日报 浏览 11067

媒体:特朗普三戏泽连斯基 "战斧"导弹泽连斯基别想了

新民晚报 浏览 792

看点超多!6只新股本周申购,北交所这只新股发行价仅3.7元;跨界锂电的原料药细分龙头登陆A股

证券时报e公司 浏览 18628

和李晨分手6年后嫁普通人,她整个人都变样了

青史楼兰 浏览 513

75岁TVB老戏骨近照曝光 肚腩消失 健康令人担忧

TVB剧评社 浏览 15136

以色列防长与埃及防长就边境交火事件通电话

环球网资讯 浏览 16672

上班穿搭没灵感?参考这些优雅通勤风模板

潮范儿 浏览 16693

售17.58万起,吉利银河E8正式上市

天天汽车 浏览 12333

vivo黄韬亲自爆料新机X300:下周一发布,是X200 Pro mini的迭代

IT之家 浏览 850

美军上将:中美几乎同时发射航天器 可能不是巧合

环球时报新闻 浏览 12990

76岁天王施瓦辛格出事了!戴名表没申报被海关扣留,惨赔27万罚款

文艺圈娱乐号 浏览 12622

车机升级 新款丰田皇冠陆放售28.48万起

网易汽车 浏览 10972

国家统计局:就业形势总体改善 青年失业率处在高位

界面新闻 浏览 91517

台军"自造"潜艇首次对外展示全貌 距离服役尚有时日

环球网资讯 浏览 12351

唐嫣《念无双》新路透温婉灵动 配角造型好惊喜

星姐说娱 浏览 14939

看了奈雪の茶才知道 卖奶茶真的不赚钱

全天候见闻 浏览 26348

谷歌或选择放弃三星,倾向于台企制造下一代Tensor和AI芯片

超能网 浏览 12553
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1