关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者3066人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

白宫黑手伸进委总统卧室!一场践踏国际规则的“黑夜绑架”

国是直通车 浏览 3221

小米SU7 Ultra飞坡翻滚多圈 车主:感谢雷军

扬子晚报 浏览 3392

魅族Flyme Auto新增生态用户数在11月首次突破20万

IT之家 浏览 3486

真有品味的中年女人,穿衣打扮都有这4个共同点,你中了吗?

静儿时尚达人 浏览 4283

浙大突破:经验学习提升AI智能体现实世界物理认知

科技行者 浏览 2887

炸了!古二再曝录音,王家卫称游本昌不是省油灯,还说唐嫣很装

娱乐圈笔娱君 浏览 3756

科学家重构常见抗癌药物:使其疗效提升两万倍,同时副作用更低

IT之家 浏览 3865

夜读体验史诗级提升:苹果 M5 iPad Pro 屏幕亮度最低为 1 尼特

IT之家 浏览 4184

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

网易汽车 浏览 3021

46岁董璇被曝怀二胎,本人现身机场脱外套辟谣,小腹平坦状态超好

扒虾侃娱 浏览 4081

克林顿夫妇作证时间确认 民主党人炸锅:特朗普你等着

澎湃新闻 浏览 94703

REDMI K90 Pro Max 可与 iPhone / 小米 17 Pro Max 通用钢化膜

IT之家 浏览 4060

特朗普还嘴硬:莫迪保证过不买俄罗斯石油了

澎湃新闻 浏览 9197

时隔25年,上一个时代的“英伟达”终于涨回来了

华尔街见闻官方 浏览 3372

途经俄罗斯航班坠机38人身亡 机身或被弹片击中

南方都市报 浏览 24699

燃油车的“智能”反击!2025广州车展燃油新车盘点

车市红点 浏览 3651

全运科技盛宴11月7日天河启幕

环球网资讯 浏览 3979

剑南春丨曼联客场2-2热刺,德利赫特读秒绝平,姆伯莫建功

懂球帝 浏览 3989

尼克斯大胜送黄蜂7连败 布伦森33分首发五人组狂轰111分

醉卧浮生 浏览 3739

社交电商,一场集体幻灭的资本游戏

钛媒体APP 浏览 3461

媒体人:国安从来没说过要解散,也从未想过要自我了断

懂球帝 浏览 3876
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1