爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

台媒：面对解...

或叫欧拉5？...

高能量唱跳歌...

程强：通胀数...

刷游戏像刷视...

2025年度...

NBA战报：灰熊141-125热火，阿德巴约23分

中超第27轮传球成功率榜：国安第一

福建舰全体官兵列阵送上硬核祝福

《骄阳似我》热度24000，这才是现偶剧该有的样子

今晚发布，OPPO Find X9 系列手机提供 eSIM 版本

隆源股份历史合资身份或存涉税风险，寄售库存商品监盘比例竟不足1%，国金证券是否尽责？|读懂IPO

Intel大小核根本停不下来！甚至要做“统一核心”

穿冰淇淋色裙子，凉快！

未来四个月，汽车市场的目标增速-11.82%？

田中碧：处于低谷的时候我用《灌篮高手》的台词激励自己

丹麦赛石宇奇击败阿塞尔森进决赛

王浩然第二阶段再进步！展露持球和突破能力，若补强防守还了得？

颜安，你到底有几副面孔？

刚刚 | “死了么”APP征名！

弹无虚发，凯恩德甲18次罚点全中

贝克汉姆和长子彻底闹掰！布鲁克林：我们只能通过律师沟通

新国标来了！曾经吹上天的辅助驾驶要“变天”了

媒体：欧洲有人或已接受让出格陵兰希望美国留个体面

高市内阁名单出炉身材火辣的日本知名写真女星入选

媒体：美国对台军售本质是在加重中华人民共和国负担

记忆大模型MemoraX AI完成千万美金种子轮融资，L2F光源创业者基金、钟鼎资本联合领投 | 融资速递

推广中奖名单-更新至2026年4月28日推广

燃烧等离子体国际科学计划项目启动及研究计划发布

陈伟霆的情史曝光：浪子脸下隐藏的情感真相！