logo
平台介绍
快速接入
密钥管理
文本转语音
文本转语音介绍
POST
接口能力介绍(非流式)
SSE
接口能力介绍(流式)
WSS
接口能力介绍(WSS)
音色克隆
音色列表
智能体
视频生成
语音识别(ASR)
计费规则
常见问题
工作台
立即登录

文本转语音 (Text-to-Speech)

SenseAudio 文本转语音(TTS)服务基于千亿参数大模型,将文字瞬间转化为自然流畅、情感丰富的语音。支持多种专业音色、精细化控制及流式输出,适用于各类智能交互与内容生产场景。

核心特性

极致拟真的语音合成

基于深度学习技术,提供接近真人的语音合成体验:

  • 情感丰富:支持开心、悲伤、生气、撒娇等 10+ 种情感表达。
  • 风格多样:覆盖客服、广告、播客、有声书、新闻资讯等专业场景。
  • 多语言支持:原生支持中文及英文。

智能多音字与上下文理解(目前仅适用于克隆音色)

面向中文场景深度优化,确保发音准确自然:

  • 语境判别:结合上下文自动识别多音字读音,避免机械式误读
  • 专业词汇支持:针对人名、地名、行业术语进行专项优化
  • 自然连读:多音字在句中发音与语调自然衔接,更贴近真人表达

毫秒级流式响应

专为实时交互设计的高性能架构:

  • 超低延迟:首包延迟 < 500ms,满足实时对话需求。
  • 流式输出:支持 Server-Sent Events (SSE),边合成边播放。
  • 高并发:万卡集群支撑,轻松应对亿级调用。

精细化语音控制

提供丰富的参数调节,满足个性化需求:

参数说明范围步进值典型应用
speed语速调节0.5 - 2.00.010.8 (抒情) / 1.5 (快讯)
vol音量调节0.01 - 100.01环境适配 / 重点强调
pitch声调调节-12 - 121角色变声 / 情绪微调

音频规格

支持多种主流音频格式与采样率,适配不同终端设备:

  • 格式:mp3 (推荐), wav, pcm, flac
  • 采样率:
    • 32kHz (推荐):平衡音质与带宽,适合大多数场景。
    • 48kHz:影院级高保真音质,适合内容制作。
    • 16kHz:电话/IoT 设备标准音质。

应用场景

智能交互

  • 语音助手:为 AI 助手赋予自然、有温度的声音。
  • 智能客服:替代机械的 IVR,提供 24/7 拟人化服务。
  • 数字人:驱动虚拟形象,实现唇音同步的实时交互。

内容生产

  • 有声阅读:批量将小说、文章转化为高质量有声书。
  • 短视频配音:一键生成旁白,降低制作成本,提升效率。
  • 新闻播报:自动化生成新闻音频,时效性更强。

教育培训

  • 在线教育:课件自动配音,支持多语种教学。
  • 儿童故事:使用生动可爱的童声讲述睡前故事。

快速体验

基础合成

最简单的调用方式,快速体验 TTS 能力:

json
复制
{ "model": "SenseAudio-TTS-1.0", "text": "欢迎体验 SenseAudio 极致语音服务。", "voice_setting": { "voice_id": "female_0006_a" // 温柔御姐音色 } }

流式合成

适用于实时对话场景,大幅降低等待时间:

json
复制
{ "model": "SenseAudio-TTS-1.0", "text": "这是一个流式输出的示例文本...", "stream": true, "voice_setting": { "voice_id": "female_0006_a" } }

相关资源

  • API 参考文档:查看完整的接口定义与参数说明。
  • 系统音色列表:试听并选择适合您场景的 12 款音色。
  • 快速接入指南:5 分钟完成快速上手。