关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

价格猛涨、库存连降!环氧丙烷题材股接连涨停

览富财经网 浏览 2068

利物浦官方:库伊特、斯科特尔等人参加对多特传奇的慈善赛

懂球帝 浏览 1884

66岁倪萍身价过亿,26岁儿子却成她心头大患

手工制作阿歼 浏览 2197

媒体:哈梅内伊大意了 他在最关键的时刻相信了美国

经济观察报 浏览 41663

多省份公布金融数据:居民储蓄高增,浙江人均存款超17万元

第一财经资讯 浏览 2140

《麻省理工科技评论》发布2026年“十大突破性技术”

DeepTech深科技 浏览 2104

美国1-1厄瓜多尔,恩纳-瓦伦西亚破门,巴洛贡扳平

懂球帝 浏览 3196

世锦赛后5个月0冠!赵心童遭亨得利狠批:热衷商业活动 对他失望

风过乡 浏览 3320

郭晶晶白天带孩子爬山,晚上在大学演讲

小娱乐悠悠 浏览 1072

冬天的“销冠”,已被羽绒服预定

时尚COSMO 浏览 2225

又一个汽车新品牌要来了,背靠五菱,首款车型微型车

汽车公告板 浏览 3923

乌迪内斯3-2莱切,布克萨、凯南-戴维斯建功

懂球帝 浏览 3056

美陆军部长抵达阿联酋首都 与俄“秘密会谈”

环球网资讯 浏览 2731

美媒:美方提出的28点新计划已缩减为19点

极目新闻 浏览 13104

"四无公司"申领超100万生育保险:15名员工中13人生育

澎湃新闻 浏览 22110

英伟达向CoreWeave追加投资20亿美元,首推独立CPU芯片

华尔街见闻官方 浏览 1939

千问宣布投30亿元“发红包”,大厂竞逐春节档,腾讯元宝App一度崩溃

红星资本局 浏览 1865

对话Memories.ai:“人的记忆本质上是视觉,AI也该如此”

硅星人 浏览 2729

徐艺洋三亚美照惊艳

悦君兮君不知 浏览 2699

2025年10月我国新能源汽车销量占比超50% 历史首次!

智车情报局 浏览 2987

时尚启蒙必看片单,终于更新了

时尚COSMO 浏览 2
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1