关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1281人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

第一女富豪的大瓜,被拍出来了

独立鱼 浏览 3884

俄罗斯核潜艇在北太平洋成功试射超音速巡航导弹

环球网资讯 浏览 4900

引援自救!内蒙古矿业富豪入局,贾国龙朋友圈托举西贝

时代财经 浏览 2171

性压抑时代,搞黄色成了AI的第一生产力

虎嗅APP 浏览 2963

2026款宋Pro DM-i上市 限时超级优享价9.98万元起

只懂车 浏览 3175

《恋人》要空降?会成下个《许我耀眼》吗?

楚楚号 浏览 3345

图片报:巴黎有意科隆19岁边锋赛义德-马拉,已与球员方面接触

懂球帝 浏览 3967

卢拉称和特朗普见面像"一见钟情" 上个月刚大骂特朗普

极目新闻 浏览 95368

港媒:香港武打明星梁小龙离世,享年77岁

界面新闻 浏览 3022

疑针对古巴 美军航母进入加勒比海

上观新闻 浏览 114

精致詹詹,美媒晒出詹姆斯更衣室座位边摆满护肤品的照片

懂球帝 浏览 3688

美国因格陵兰岛问题对欧洲8国加关税 多国反击特朗普

环球网资讯 浏览 7205

2026年开年看什么?这些新剧已经帮你挑好了

桃桃淘电影 浏览 3152

系列赛1-1!文班亚马伤退,亨德森爆发31分!开拓者3分险胜马刺

全景体育V 浏览 1258

沉浸式感受"正义使命-2025"演习现场

环球网资讯 浏览 3215

铜资源争夺加剧!力拓将向亚马逊供应铜

财联社 浏览 3010

队报:消息人士称罗塞尼尔并不在切尔西新帅候选名单上

懂球帝 浏览 3274

全球限量25台 Bertone Runabout量产版发布

车质网 浏览 2975

男乒横扫韩国打出最佳状态!林诗栋提升两点,梁靖崑找回熟悉感觉

篮球资讯达人 浏览 826

TA:皇马正与苹果合作开发VR项目,但一切处于非常早期的阶段

懂球帝 浏览 4086

下一个周期,我们为什么必须关注这十大黄金赛道?

智谷趋势 浏览 3844
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1