爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

特朗普称与北...

看大疆做全景...

U23亚洲杯...

“大战”危险...

莱巴金娜送蛋...

深圳这个人气...

加兰：本希望在场上帮助马竞更多，会找一天回去告别

石破茂讲话让高市早苗恼羞成怒：不知道他在说什么

南京爆冷无缘苏超决赛，苏州发布9个感叹号！网友：像是在放鞭炮

第一女富豪的大瓜，被拍出来了

俄罗斯核潜艇在北太平洋成功试射超音速巡航导弹

引援自救！内蒙古矿业富豪入局，贾国龙朋友圈托举西贝

性压抑时代，搞黄色成了AI的第一生产力

2026款宋Pro DM-i上市限时超级优享价9.98万元起

《恋人》要空降？会成下个《许我耀眼》吗？

图片报：巴黎有意科隆19岁边锋赛义德-马拉，已与球员方面接触

卢拉称和特朗普见面像＂一见钟情＂上个月刚大骂特朗普

港媒：香港武打明星梁小龙离世，享年77岁

疑针对古巴美军航母进入加勒比海

精致詹詹，美媒晒出詹姆斯更衣室座位边摆满护肤品的照片

美国因格陵兰岛问题对欧洲8国加关税多国反击特朗普

2026年开年看什么？这些新剧已经帮你挑好了

系列赛1-1！文班亚马伤退，亨德森爆发31分！开拓者3分险胜马刺

沉浸式感受＂正义使命-2025＂演习现场

铜资源争夺加剧！力拓将向亚马逊供应铜

队报：消息人士称罗塞尼尔并不在切尔西新帅候选名单上

全球限量25台 Bertone Runabout量产版发布

男乒横扫韩国打出最佳状态！林诗栋提升两点，梁靖崑找回熟悉感觉

TA：皇马正与苹果合作开发VR项目，但一切处于非常早期的阶段

下一个周期，我们为什么必须关注这十大黄金赛道？