文本转语音 (Text-to-Speech)

SenseAudio 文本转语音（TTS）服务支持70+官方精品音色及自定义音色的精细化控制及流式输出，适用于各类智能交互与内容生产场景。

核心特性

强大、富有情感的语音合成

基于深度学习技术，提供接近真人的语音合成体验：

情感丰富：支持开心、悲伤、生气、撒娇等 10+ 种情感表达。
风格多样：覆盖客服、广告、播客、有声书、新闻资讯等专业场景。
多音字控制：支持自定义中文多音字的读音。（仅限senseaudio-tts-1.5）
公式朗读：支持口语化朗读公式（需以 LaTeX 格式输入公式）。

模型版本说明

SenseAudio 提供多版本 TTS 模型。

senseaudio-tts-1.5-260319：情绪表现力更强，读音准确率更高，支持自定义多音字读音。
senseaudio-tts-1.0：情绪更稳定，音质更纯净。

毫秒级流式响应

专为实时交互设计的高性能架构：

超低延迟：首包延迟 < 500ms，满足实时对话需求。
流式输出：支持 Server-Sent Events (SSE)，边合成边播放。

高并发支撑

高并发：万卡集群支撑，轻松应对亿级调用。

精细化语音控制

提供丰富的参数调节，满足个性化需求：

参数	说明	范围	步进值	典型应用
speed	语速调节	[0.5, 2.0]	0.01	0.8 (抒情) / 1.5 (快速)
vol	音量调节	[0.01, 10.0]	0.01	环境适配 / 重点强调
pitch	声调调节	[-12, 12]	1	角色变声 / 情绪微调

音频规格

支持多种主流音频格式与采样率，适配不同终端设备：

格式：mp3 (推荐), wav, pcm, flac
采样率：支持 44100Hz（推荐）、8000Hz、16000Hz、22050Hz、24000Hz、32000Hz

接入建议

首次接入：建议先阅读 快速接入指南，使用可直接生成 output.mp3 的示例快速完成首个请求。
同步合成：适合标准文本转语音场景，参考 文本转语音 API。
流式合成：适合实时对话与边生成边播放场景，参考 流式语音合成 API。

相关资源

API 参考文档：查看完整的接口定义与参数说明。
系统音色列表：试听并选择适合您场景的系统音色。
API 音色服务说明：查看当前账号下可直接调用的全部音色 ID。
快速接入指南：5 分钟完成快速上手。