关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻18295人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

显老的3种发色,求你别再乱染发了!

爱豆时尚Show 浏览 15124

张雨绮秀性感 马伊琍瘦成纸片人 审美差距来了

不八卦会死星人 浏览 12276

奇才将蒙特-莫里斯交易至活塞

OnFire 浏览 14454

秦刚:敦促有关国家停止鼓噪"今日乌克兰 明日台湾"

环球网资讯 浏览 94761

李春生、张福生等四"虎"同时被点名 都和一个问题有关

政知新媒体 浏览 94672

香波特:讨厌在尼克斯&骑士打3D 到了国王才感觉解放

直播吧 浏览 747

华夏幸福股价迫近1元大关,王文学拟增持1000至1100万元股份

房财经 浏览 9836

训练师:库里是历史上技术最好,也是最坚韧的球员

OnFire 浏览 13729

巴总理称"将7架印战机炸成残骸" 印方激烈反驳

澎湃新闻 浏览 696

台军退役扫雷车在公园展示"26根大钢牙几乎被拔光"

环球网资讯 浏览 15857

中信证券被传停暂停融券业务 回应:绝无此事

财联社 浏览 11632

美舰穿航台湾海峡东部战区回应了什么?到底是怎么回事?

趣看热点 浏览 210705

泽连斯基称乌军正对俄军采取"反攻"行动 但拒透露细节

环球网 浏览 91149

价格更低 空间更大 广汽传祺GS8五座版正式上市

网易汽车 浏览 10645

芯片巨头又有大动作

中国基金报 浏览 10000

中邮人寿再收监管罚单:涉及提供虚假投诉数据报告

面包财经 浏览 12313

王思聪近照罕见曝光!与黑衣美女亲密互动

文艺圈娱乐号 浏览 15771

早春放弃穿一身黑吧!建议穿这些“显白色”,奔四奔五都爱了

静儿时尚达人 浏览 10593

郑永刚遗孀起诉郑驹 公司过半股权被冻结

清流 浏览 17300

伊卡尔迪现身“与星共舞”给旺达助阵:很开心她能展示自我

懂球帝 浏览 12274

中科大团队开发新型暖白光LED,最大发光效率接近理论水平

DeepTech深科技 浏览 11706
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1