logo
平台介绍
快速接入
密钥管理
模型列表
计费规则
音色列表
文本转语音
音色克隆
文生音色
语音识别
语音识别介绍
POST
语音识别API
WSS
WebSocket 实时识别
POST
音频质量检测
GET
语音识别历史
多模态理解模型
音乐生成
图片生成
视频生成
语音Agent
自定义Agent
常见问题
工作台
立即登录

SenseASR 语音识别服务

基于 HTTP 协议的语音识别服务。

核心能力

  • 多模型:4 种模型覆盖从极速到深度理解的场景
  • 多语言:支持中、英、日及多种语言
  • 丰富功能:流式返回、说话人分离、字级时间戳、翻译

模型对比

模型定位特色适用场景
senseaudio-asr-lite-1.5-260319极速版毫秒级响应、30+ 语言、热词增强低成本批量转写
senseaudio-asr-1.5-260319标准版功能全面、性价比高通用转写、视频字幕
senseaudio-asr-pro-1.5-260319专业版高精度、复杂环境优化会议记录、访谈、司法庭审
senseaudio-asr-deepthink-1.5-260319深度版智能纠错、方言/术语增强语音输入法

功能支持矩阵

能力senseaudio-asr-lite-1.5-260319senseaudio-asr-1.5-260319senseaudio-asr-pro-1.5-260319senseaudio-asr-deepthink-1.5-260319
基础识别✅✅✅✅
流式返回❌❌❌✅
说话人分离❌❌✅❌
字级时间戳❌✅✅❌
句级时间戳❌✅✅❌
翻译❌❌✅✅
热词增强✅❌❌❌
智能编辑收敛❌❌❌✅
多语言支持✅✅✅✅

性能优化建议

  1. 按需开启功能:仅开启需要的功能,避免额外计算开销
  2. 音频预处理:建议 16kHz 采样率、单声道、减少背景噪音
  3. 文件控制:单文件 ≤10MB,超长音频建议切片处理

SenseASR API 参考

接口信息

  • 接口地址: https://api.senseaudio.cn/v1/audio/transcriptions
  • 协议类型: POST
  • Content-Type: multipart/form-data
  • 鉴权方式: Bearer Token

请求参数

必填参数

参数类型说明
filefile音频文件(wav/mp3/ogg/flac/aac/m4a/mp4 等),≤10MB
modelstringsenseaudio-asr-lite-1.5-260319
senseaudio-asr-1.5-260319
senseaudio-asr-pro-1.5-260319
senseaudio-asr-deepthink-1.5-260319

可选参数

参数类型默认值说明
languagestring-语言代码(ISO-639-1,ISO-639-3,后者仅支持小部分),如 zh/en/ja, 不设置会自动检测
response_formatstringjsonjson / text / verbose_json
streambooleanfalse流式返回(lite 不支持)
enable_punctuationbooleanfalse自动标点(deepthink 不支持,仅 asr/pro)
enable_speaker_diarizationbooleanfalse说话人分离(仅 asr/pro)
max_speakersinteger-最大说话人数 1-20(配合说话人分离,仅asr-pro支持)
timestamp_granularities[]array-word=字级 / segment=句级(仅 asr/pro)
target_languagestring-翻译目标语言代码(lite 不支持)
hotwordsstring-热词增强,逗号分隔(仅 lite)
recognize_modestringautoauto/record_only(仅 deepthink 流式模式)
abbreviationsBooleanFalse缩写词自动替换

语言支持

参数说明

audio/transcriptions 接口中有两个与语言相关的参数:

参数作用说明
language指定音频文件内容的语言,增强识别效果可选,留空则自动检测
target_language将音频中识别的内容翻译成另外一种语言可选,留空则不翻译,仅返回识别的原文

各模型参数支持情况

不同模型支持的参数不同:

模型languagetarget_language
senseaudio-asr-lite-1.5-260319✅❌
senseaudio-asr-1.5-260319✅❌
senseaudio-asr-pro-1.5-260319✅✅
senseaudio-asr-deepthink-1.5-260319✅✅

[!WARNING] 部分模型只支持 language 或 target_language 参数,请以此表为准。

支持的语种详情

1. senseaudio-asr-lite-1.5-260319

支持语种:

代码语言代码语言代码语言
zh中文en英文yue粤语
ja日文ko韩文vi越南语
id印尼语th泰语ms马来语
tl/fil菲律宾语ar阿拉伯语hi印地语
bg保加利亚语hr克罗地亚语cs捷克语
da丹麦语nl荷兰语et爱沙尼亚语
fi芬兰语el希腊语hu匈牙利语
ga爱尔兰语lv拉脱维亚语lt立陶宛语
mt马耳他语pl波兰语pt葡萄牙语
ro罗马尼亚语sk斯洛伐克语sl斯洛文尼亚语
sv瑞典语

2. senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319

支持语种:

代码语言代码语言代码语言
ar阿拉伯语yue粤语zh中文
nl荷兰语en英文fr法语
de德语id印尼语it意大利语
ja日文ko韩文ms马来语
pt葡萄牙语ru俄语es西班牙语
th泰语tr土耳其语ur乌尔都语
vi越南语

3. senseaudio-asr-deepthink-1.5-260319

支持语种:

代码语言代码语言代码语言
ar阿拉伯语yue粤语zh中文
nl荷兰语en英文fr法语
de德语id印尼语it意大利语
ja日文ko韩文ms马来语
pt葡萄牙语ru俄语es西班牙语
th泰语tr土耳其语ur乌尔都语
vi越南语

用于翻译输出

响应格式

JSON(默认)

json
复制
{ "text": "识别出的文本内容" }

Text

纯文本,Content-Type: text/plain

text
复制
识别出的文本内容

Verbose JSON

json
复制
{ "text": "道可道非常道", "duration": 2.1, "audio_info": { "duration": 5230, "format": "wav" }, "segments": [ { "id": 0, "start": 0.0, "end": 2.0, "text": "道可道非常道", "speaker": "speaker_0", "translation": "Translated" } ], "words": [ { "word": "道", "start": 0.27, "end": 0.51 }, { "word": "可", "start": 0.57, "end": 0.81 }, { "word": "道", "start": 0.83, "end": 1.07 }, { "word": "非", "start": 1.21, "end": 1.45 }, { "word": "常", "start": 1.63, "end": 1.87 }, { "word": "道", "start": 1.87, "end": 2.0 } ] }

字段说明:

  • speaker: 需开启 enable_speaker_diarization
  • translation: 需设置 target_language
  • words: 需设置 timestamp_granularities[]=word
  • segment: 需设置 timestamp_granularities[]=segment

流式响应(SSE)

Content-Type: text/event-stream

plaintext
复制
data: {"delta": {"text": "增量文本"}, "finish_reason": null} data: {"delta": {"text": "。"}, "finish_reason": "stop", "audio_info": {...}} data: [DONE]
字段说明
delta.text本次返回的增量文本
finish_reasonnull(进行中) / stop(完成) / error(错误)

错误处理

错误响应格式

json
复制
{ "code": "invalid", "message": "file is required" }

错误码速查

HTTPcode说明
400invalid参数错误
429rate_limit_error请求频率过高
500internal_error服务端错误

各模型调用示例


1. senseaudio-asr-lite-1.5-260319

轻量级模型,适合简单快速的语音识别场景。

特性

  • ✅ 热词增强 (hotwords)
  • ❌ 不支持流式
  • ❌ 不支持翻译
  • ❌ 不支持说话人分离/字级时间戳

调用示例

基础调用

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \ -F file="@audio.mp3" \ -F model="senseaudio-asr-lite-1.5-260319"

返回示例:(JSON)

json
复制
{ "text": "今天天气不错适合出去走走" }

指定语言 + 纯文本返回

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \ -F file="@audio.wav" \ -F model="senseaudio-asr-lite-1.5-260319" \ -F language="zh" \ -F response_format="text"

返回示例:(Text)

plaintext
复制
今天天气不错适合出去走走

使用热词增强

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \ -F file="@meeting.wav" \ -F model="senseaudio-asr-lite-1.5-260319" \ -F language="zh" \ -F response_format="json" \ -F hotwords="张三,李四,项目Alpha,季度复盘"

返回示例:

json
复制
{ "text": "张三和李四负责项目Alpha的季度复盘工作" }

详细 JSON 格式

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \ -F file="@audio.wav" \ -F model="senseaudio-asr-lite-1.5-260319" \ -F response_format="verbose_json"

返回示例:(Verbose JSON)

json
复制
{ "duration": 14640, "segments": null, "words": null, "text": "道可道非常道名可名非常名无名天地之始有名万物之母故常无欲以观其妙常有欲以观其皎" }

2. senseaudio-asr-1.5-260319

标准模型,支持大多数高级功能。

特性

流式返回翻译说话人分离字级时间戳句级时间戳多语言支持
senseaudio-asr-1.5-260319❌❌❌✅✅✅

调用示例

基础调用

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \ -F file="@audio.mp3" \ -F model="senseaudio-asr-1.5-260319"

返回示例:

json
复制
{ "text": "欢迎使用我们的语音识别服务,希望能为您提供帮助。" }

字级/句级时间戳

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \ -F file="@interview.wav" \ -F model="senseaudio-asr-1.5-260319" \ -F response_format="verbose_json" \ -F "timestamp_granularities[]=word"

返回示例:

json
复制
{ "task": "transcribe", "duration": 4.153, "segments": [ { "id": 0, "start": 0.93, "end": 3.37, "text": "今天天气不错,适合出去走走。" } ], "words": [ { "word": "今", "start": 0.93, "end": 1.09 }, { "word": "天", "start": 1.09, "end": 1.25 }, { "word": "天", "start": 1.25, "end": 1.37 }, { "word": "气", "start": 1.37, "end": 1.57 }, { "word": "不", "start": 1.57, "end": 1.65 }, { "word": "错", "start": 1.65, "end": 1.89 }, { "word": "适", "start": 1.89, "end": 2.13 }, { "word": "合", "start": 2.71, "end": 2.87 }, { "word": "出", "start": 2.87, "end": 2.93 }, { "word": "去", "start": 2.93, "end": 3.11 }, { "word": "走", "start": 3.11, "end": 3.21 }, { "word": "走", "start": 3.21, "end": 3.37 } ], "text": "今天天气不错,适合出去走走。", "audio_info": { "duration": 4153, "format": "audio" } }

3. senseaudio-asr-pro-1.5-260319

专业版模型,识别精度更高,适合对质量要求较高的场景。

特性

  • ✅ 翻译
  • ✅ 说话人分离
  • ✅ 字级/句级时间戳
  • ⭐ 更高的识别精度

调用示例

基础调用

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \ -F file="@audio.mp3" \ -F model="senseaudio-asr-pro-1.5-260319"

返回示例:

json
复制
{ "text": "第三季度的销售额达到了预期目标的115%,超额完成任务。" }

完整功能调用(说话人分离 + 字级时间戳 + 翻译)

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \ -F file="@meeting.wav" \ -F model="senseaudio-asr-pro-1.5-260319" \ -F response_format="verbose_json" \ -F enable_speaker_diarization="true" \ -F max_speakers="4" \ -F "timestamp_granularities[]=word" \ -F "timestamp_granularities[]=segment" \ -F target_language="en"

返回示例:

json
复制
{ "task": "transcribe", "duration": 4.153, "segments": [ { "id": 0, "start": 0.95, "end": 3.37, "text": "今天天气不错,适合出去走走。", "speaker": "speaker_0", "translation": "Today's weather is nice, suitable for going out for a walk." } ], "words": [ { "word": "今", "start": 0.93, "end": 1.09 }, { "word": "天", "start": 1.09, "end": 1.25 }, { "word": "天", "start": 1.25, "end": 1.37 }, { "word": "气", "start": 1.37, "end": 1.57 }, { "word": "不", "start": 1.57, "end": 1.65 }, { "word": "错", "start": 1.65, "end": 1.89 }, { "word": "适", "start": 1.89, "end": 2.13 }, { "word": "合", "start": 2.71, "end": 2.87 }, { "word": "出", "start": 2.87, "end": 2.93 }, { "word": "去", "start": 2.93, "end": 3.11 }, { "word": "走", "start": 3.11, "end": 3.21 }, { "word": "走", "start": 3.21, "end": 3.37 } ], "text": "Today's weather is nice, suitable for going out for a walk.", "audio_info": { "duration": 4153, "format": "audio" } }

4. senseaudio-asr-deepthink-1.5-260319

语音转写模型,整理口语化的语音输入。

特性

  • ✅ 流式返回
  • ✅ 翻译
  • ✅ recognize_mode 参数(仅流式)
  • ❌ enable_punctuation(静默忽略)
  • ❌ 不支持说话人分离/字级时间戳
  • ⭐ 最高识别精度,适合复杂场景

调用示例

基础调用

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \ -F file="@complex_audio.mp3" \ -F model="senseaudio-asr-deepthink-1.5-260319"

返回示例:

json
复制
{ "text": "量子计算利用量子力学原理如叠加态和纠缠态来处理信息比传统计算机在某些特定问题上具有指数级的速度优势" }

翻译

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \ -F file="@complex_audio.mp3" \ -F model="senseaudio-asr-deepthink-1.5-260319" \ -F target_language="en"

返回示例:

json
复制
{ "text": "The weather is nice today, suitable for going out for a walk." }