2024 年 2 月,OpenAI 发布了 Sora。这个能生成视频的 AI 模型用极短的时间改写了移动互联网时代的内容创作方式,甚至连迪士尼都曾计划为此注资十亿美元,并计划在 Sora 2 中引入自己的核心影视 IP。但就在 26 年 3 月,OpenAI 宣布关闭 Sora,相关 API 也会在 9 月停止提供。
对此,OpenAI 的解释是「将计算资源重新分配至核心企业产品」。
那到底是怎样的产品值得 OpenAI 不惜「壮士断腕」呢?刚刚过去的四月里,OpenAI 先后发布了 GPT-Image 2.0、GPT-5.5 等新服务。5 月 7 日,OpenAI 也乘胜追击,接连上线了 GPT-5.5 Instant 和今天我们要谈的重点——GPT-Realtime-2 系列模型。
GPT RT2让 AI 像真人一样说话
简单来说,GPT-Realtime-2(简称GPT RT2)是一个全面优化 AI 语音能力的模型系列,包含原版(GPT-Realtime-2)、翻译(GPT-Realtime-Translate)和转录(GPT-Realtime-Whisper)三个分支。其中 GPT-Realtime-2 具备 GPT-5 级别推理能力,开发者甚至可以自定义模型的推理深度,在准确性、时效性和算力成本之间找到自己的平衡。
阅读全文