爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

左手并购芬兰...

2025世界...

全系标配激光...

新研究让大模...

千问宣布投3...

迅雷再次起诉...

中乌外交部政治磋商在北京举行

站在4000点的十字路口，这六位“固收+”强将值得一看

特朗普对伊朗新任最高领袖感到＂不高兴＂

闪电快讯｜海信发布影游旗舰E8S，RGB-Mini LED价格下探

舒淇，东亚女孩的恨海情天

萨顿力挺凯恩：英格兰从未有过几个比他更好的球员

阿里腾讯一起投！理想前高管组团做机器人，半年融了20亿

黎巴嫩总统谴责以军空袭贝鲁特

满配华为全家桶岚图追光L将上市

许绍雄葬礼设公祭时段，开放公众致意，曝他去年查出肾脏有肿瘤

内维尔：B费的表现就像坎通纳；曼联的表现体现了球队的DNA

德国15人“大军”突然撤离格陵兰原因公布

邱泽妈妈没想到这个女人竟把她儿子狠狠“拿捏”

扎哈罗娃：俄罗斯保留对日本采取强硬回应的权利

再创历史新高！2025年粮食产量达14298亿斤

窦靖童帮帮唱，亲妈亲爸继父四选一你选谁？

洪秀柱警告日本别惹事：小日本不要太嚣张

以2.5吨白银建造的湖南“永兴银楼”被拍卖，其中1.75吨纯银折算1204.7万元，每克仅6.88元“白菜价”，委托方回应

贵=好用？这个刚需我们试了一堆才选到合适的

格拉斯纳：看起来伊斯梅拉-萨尔喜欢踢利物浦，他总是能进球

聂卫平告别仪式：兰莉娅变化大

闫学晶首现身再传噩耗，这回真洗不白了

杭州龙井山偶遇周杰伦，一身休闲难掩酷劲

特斯拉两员大将，被小米挖走了！马斯克花5000万留人