关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1535人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大众2026年新车规划曝光,纯电/插混/增程都有,你最期待哪款?

爱买车 浏览 3142

腾讯突破:AI实现对话到电影的完整自动化制作

科技行者 浏览 3150

全球第二、国内第一!最强文本的文心5.0 Preview一手实测来了

机器之心Pro 浏览 4102

媒体披露:U23国足主帅禁止球员在驻地点外卖

环球网资讯 浏览 20524

俄白军队举行核演习 普京再提核“三位一体”

看看新闻Knews 浏览 537

VOGUE大合照太势利:影后只能站角落?

娱乐圈笔娱君 浏览 4269

从移动设备到机器人,高通如何解锁端侧AI的「全域智能」?

雷峰网 浏览 3314

消失5个月后泰禾黄其森“归来”

地产深度报道 浏览 3385

马丁·厄德高:阿森纳英超近失球经历是“动力”

绿茵情报局 浏览 3212

连赢王曼昱+陈熠 42岁华裔掀翻世界第2+结束5连败 球迷:想念莎莎

风过乡 浏览 3389

第二十七届高交会将于下周举办,中国太空游项目将全球首发

南方都市报 浏览 4185

先L3还是直接L4?国内车企还在争论,特斯拉已经“空车”上路了

Autolab 浏览 3647

刘嘉玲好敢说!问柯淳不谈恋爱生理没需求么?柯淳回答堪称教科书

娱乐圈笔娱君 浏览 4080

无缘提前2轮保级!武汉三镇54天不胜,6年首负新鹏城,4纪录告破

奥拜尔 浏览 4318

海来阿木凭《嘉禾望岗》爆火 新歌播放量10亿

科学发掘 浏览 3126

俄外长:向乌提供“战斧”将让俄美关系出现最危险局面

上观新闻 浏览 4294

淘宝去复杂,抖音延周期,2025双11平台直降抢客?

蓝鲸新闻 浏览 4448

牛弹琴:荷兰控制中企简直"白痴" 现在给中国道歉晚了

大象新闻 浏览 8010

年轻人用AI生成流浪汉吓坏父母,引810万人围观,这次玩笑开大了

机器之心Pro 浏览 4404

前三季度海洋生产总值7.9万亿元 同比增长5.6%

央视财经 浏览 4266

巩俐和77岁“法拉利”老公甜蜜逛北京,依偎互拍

粵語经典歌單 浏览 3577
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1