文本转语音 (Text-to-Speech)
SenseAudio 文本转语音(TTS)服务基于千亿参数大模型,将文字瞬间转化为自然流畅、情感丰富的语音。支持多种专业音色、精细化控制及流式输出,适用于各类智能交互与内容生产场景。
极致拟真的语音合成
基于深度学习技术,提供接近真人的语音合成体验:
- 情感丰富:支持开心、悲伤、生气、撒娇等 10+ 种情感表达。
- 风格多样:覆盖客服、广告、播客、有声书、新闻资讯等专业场景。
- 多语言支持:原生支持中文及英文。
智能多音字与上下文理解(目前仅适用于克隆音色)
面向中文场景深度优化,确保发音准确自然:
- 语境判别:结合上下文自动识别多音字读音,避免机械式误读
- 专业词汇支持:针对人名、地名、行业术语进行专项优化
- 自然连读:多音字在句中发音与语调自然衔接,更贴近真人表达
毫秒级流式响应
专为实时交互设计的高性能架构:
- 超低延迟:首包延迟 < 500ms,满足实时对话需求。
- 流式输出:支持 Server-Sent Events (SSE),边合成边播放。
- 高并发:万卡集群支撑,轻松应对亿级调用。
精细化语音控制
提供丰富的参数调节,满足个性化需求:
| 参数 | 说明 | 范围 | 步进值 | 典型应用 |
|---|
| speed | 语速调节 | 0.5 - 2.0 | 0.01 | 0.8 (抒情) / 1.5 (快讯) |
| vol | 音量调节 | 0.01 - 10 | 0.01 | 环境适配 / 重点强调 |
| pitch | 声调调节 | -12 - 12 | 1 | 角色变声 / 情绪微调 |
支持多种主流音频格式与采样率,适配不同终端设备:
- 格式:mp3 (推荐), wav, pcm, flac
- 采样率:
- 32kHz (推荐):平衡音质与带宽,适合大多数场景。
- 48kHz:影院级高保真音质,适合内容制作。
- 16kHz:电话/IoT 设备标准音质。
智能交互
- 语音助手:为 AI 助手赋予自然、有温度的声音。
- 智能客服:替代机械的 IVR,提供 24/7 拟人化服务。
- 数字人:驱动虚拟形象,实现唇音同步的实时交互。
内容生产
- 有声阅读:批量将小说、文章转化为高质量有声书。
- 短视频配音:一键生成旁白,降低制作成本,提升效率。
- 新闻播报:自动化生成新闻音频,时效性更强。
教育培训
- 在线教育:课件自动配音,支持多语种教学。
- 儿童故事:使用生动可爱的童声讲述睡前故事。
基础合成
最简单的调用方式,快速体验 TTS 能力:
{
"model": "SenseAudio-TTS-1.0",
"text": "欢迎体验 SenseAudio 极致语音服务。",
"voice_setting": {
"voice_id": "female_0006_a" // 温柔御姐音色
}
}
流式合成
适用于实时对话场景,大幅降低等待时间:
{
"model": "SenseAudio-TTS-1.0",
"text": "这是一个流式输出的示例文本...",
"stream": true,
"voice_setting": {
"voice_id": "female_0006_a"
}
}
- API 参考文档:查看完整的接口定义与参数说明。
- 系统音色列表:试听并选择适合您场景的 12 款音色。
- 快速接入指南:5 分钟完成快速上手。