关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1279人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国"全面封锁"受制裁油轮 一艘油轮狂发75次求救信号

红星新闻 浏览 30593

双门双座+纯电后驱 全新smart #2将于2026年发布

网易汽车 浏览 3318

冬季如何穿的漂亮?看看这27套穿搭就有灵感了,优雅不臃肿

静儿时尚达人 浏览 3536

闫学晶奢侈风波升级!官媒出手锐评

网络易不易 浏览 3178

这个意外走红的风格,冬天穿真的很加分!

黎贝卡的异想世界 浏览 3413

踹开争议男友,她成了最大赢家?

八卦三缺一 浏览 3024

搭激光雷达/纯电续航506km 长安启源全新Q05开启盲订

网易汽车 浏览 4263

福建舰全体官兵列阵 送上硬核祝福

央视军事 浏览 2348

梁小龙一生太精彩!曾被封杀20年,公开承认出轨,还跟周星驰反目

萌神木木 浏览 2995

无论女人多大年纪,秋天都要准备几件“针织衫”,温柔舒适

静儿时尚达人 浏览 3917

男子带患阿尔茨海默症的妻子跑网约车:1年仅两个退单

潇湘晨报 浏览 32817

鞋子专场||穿了五年十年,掏心窝子说,最常穿的还是这一双!

黎贝卡的异想世界 浏览 3367

美国已正式开始出售委内瑞拉石油

新京报 浏览 3155

国安2-4海牛历史首次主场输给对手,此前12战10胜2平仅失3球

懂球帝 浏览 4123

大S逝世一周年 S家没通知大S子女惹争议

萌神木木 浏览 2901

加速进化抢单“双11”

北京商报 浏览 3949

看完《阿凡达3》,心情很复杂

独立鱼 浏览 2643

《我的山与海》遭受痛批,年代剧要的是接地气

娱乐圈笔娱君 浏览 2236

我国突破固态电池关键技术瓶颈

大象新闻 浏览 4178

你从托马斯·穆勒身上吸取教训了吗?

绿茵情报局 浏览 3057

上千网友帮女孩杀猪 主厨:这么多张嘴挂身上压力太大

极目新闻 浏览 12977
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1