关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者5人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

是时候考虑购买美国大豆了,为了“拴住”特朗普!

北向财经 浏览 1174

俄军抵达坠毁地点 美媒讨论“参战可能”

环球网资讯 浏览 19677

以军称在汗尤尼斯的战斗取得巨大进展

环球网资讯 浏览 12790

在国家德比爆发冲突后,亚马尔社媒取消对卡瓦哈尔的关注

懂球帝 浏览 1247

泰柬边境冲突已致19名柬埔寨平民死亡

国际在线 浏览 507

“头锋”?吧友评坎帕纳:9.6分,双逆足但是会头球

直播吧 浏览 14371

薛鹤翔:马士基开舱偏低,打乱旺季预期节奏

首席经济学家论坛 浏览 1107

外媒:苹果大幅下调首款头显产量目标,因设计复杂和生产难度大

澎湃新闻 浏览 15709

周杰伦穿西装在厦门扫楼 与刘畊宏向粉丝打招呼

笑猫说说 浏览 18848

谷歌将对员工考勤更加严格

界面新闻 浏览 16780

首次搭载Hi4-Z架构 全新坦克400上市售24.98万起

网易汽车 浏览 1101

拉加德暗示欧央行不急行动:政策处于有利位置,未预设利率路径,任何选项都应考虑

华尔街见闻官方 浏览 564

就任后的首次国事访问 马尔代夫总统选择了中国

上观新闻 浏览 74309

董路:日本队6届世界杯过不了16强 跟国足24年无缘世界杯一样痛苦

风过乡 浏览 1399

A股板块轮动加速 基金净值“跑偏”泄露调仓动向

证券时报 浏览 1915

2024年春晚彩排名单又被骂,原因有2点,赵本山说出观众心声

不八卦会死星人 浏览 13099

英特尔CEO确认:18A工艺已进入大规模量产,为三代产品奠定基础

IT之家 浏览 1242

邮报:利物浦体能教练正帮维尔茨提升身体素质,从而适应激烈对抗

直播吧 浏览 2032

在校退役士兵可获国家助学金 申请即可得

环球网资讯 浏览 16862

格拉斯纳:看起来伊斯梅拉-萨尔喜欢踢利物浦,他总是能进球

懂球帝 浏览 1132

美轰炸机挂高超导弹现身关岛

环球网 浏览 12946
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1