RTVI-AI

实时语音 [视频] 推理的开放标准

音频工具

1 年前

8064

912

0

RTVI-AI是一个旨在简化构建AI语音到语音和实时视频应用的开放标准。它提供了开源SDK代码和标准端点形状、事件消息以及数据结构的文档，支持开发者使用任何推理服务，并允许推理服务利用开源工具为实时多媒体开发复杂的客户端工具。

RTVI-AI于2024年7月25日开源了基于pipecat库的实时AI语音和视频标准。以下是相关介绍：

已开源的内容：目前已开源 JavaScript 和 React SDK，还将陆续开源基于 iOS 和 Android 平台的 SDK。
技术堆栈的主要定义：
网络传输：基于 WebRTC 的超低延迟通信服务。与传统的 WebSockets 相比，WebRTC 虽然复杂，但在处理媒体流方面具备关键功能（如节奏、带宽估计、缓冲区管理、质量指标、回声消除等），能有效减少生产环境中的不必要延迟，更适合实时语音和视频传输。
编排：通过标准流程、传输、状态、任务调配等。预编排的 pipeline 具有每个流程都通过独立状态控制的优势，rtvi-ai 通过管道抽象提供了一种高级方法来配置服务的各个组件和处理步骤，允许动态更改和自定义，增加了灵活性。
推理：这并非该标准的重点，主要由 Groq 提供支持。Groq 在推动流式输出和低延迟方面发挥作用，在未来发展到多模态模型的应用上有很大潜力，比如应用在实时生成内容的平台（如类似实时生成可互动的电影游戏）。

此外，RTVI-AI还推出了一个在线聊天 demo 可供体验：demo.rtvi.ai。

免责声明：本网站仅提供网址导航服务，对链接内容不负任何责任或担保。