SenseASR 语音识别服务

基于 HTTP 协议的语音识别服务。

核心能力

多模型：4 种模型覆盖从极速到深度理解的场景
多语言：支持中、英、日及多种语言
丰富功能：流式返回、说话人分离、字级时间戳、翻译

模型对比

模型	定位	特色	适用场景
`senseaudio-asr-lite-1.5-260319`	极速版	毫秒级响应、30+ 语言、热词增强	低成本批量转写
`senseaudio-asr-1.5-260319`	标准版	功能全面、性价比高	通用转写、视频字幕
`senseaudio-asr-pro-1.5-260319`	专业版	高精度、复杂环境优化	会议记录、访谈、司法庭审
`senseaudio-asr-deepthink-1.5-260319`	深度版	智能纠错、方言/术语增强	语音输入法

功能支持矩阵

能力	senseaudio-asr-lite-1.5-260319	senseaudio-asr-1.5-260319	senseaudio-asr-pro-1.5-260319	senseaudio-asr-deepthink-1.5-260319
基础识别	✅	✅	✅	✅
流式返回	❌	❌	❌	✅
说话人分离	❌	❌	✅	❌
字级时间戳	❌	✅	✅	❌
句级时间戳	❌	✅	✅	❌
翻译	❌	❌	✅	✅
热词增强	✅	❌	❌	❌
智能编辑收敛	❌	❌	❌	✅
多语言支持	✅	✅	✅	✅

性能优化建议

按需开启功能：仅开启需要的功能，避免额外计算开销
音频预处理：建议 16kHz 采样率、单声道、减少背景噪音
文件控制：单文件 ≤10MB，超长音频建议切片处理

SenseASR API 参考

接口信息

接口地址: https://api.senseaudio.cn/v1/audio/transcriptions
协议类型: POST
Content-Type: multipart/form-data
鉴权方式: Bearer Token

请求参数

必填参数

参数	类型	说明
`file`	file	音频文件（wav/mp3/ogg/flac/aac/m4a/mp4 等），≤10MB
`model`	string	`senseaudio-asr-lite-1.5-260319` `senseaudio-asr-1.5-260319` `senseaudio-asr-pro-1.5-260319` `senseaudio-asr-deepthink-1.5-260319`

可选参数

参数	类型	默认值	说明
`language`	string	-	语言代码（ISO-639-1,ISO-639-3,后者仅支持小部分），如 `zh`/`en`/`ja`, 不设置会自动检测
`response_format`	string	json	`json` / `text` / `verbose_json`
`stream`	boolean	false	流式返回（lite 不支持）
`enable_punctuation`	boolean	false	自动标点（deepthink 不支持，仅 asr/pro）
`enable_speaker_diarization`	boolean	false	说话人分离（仅 asr/pro）
`max_speakers`	integer	-	最大说话人数 1-20（配合说话人分离，仅asr-pro支持）
`timestamp_granularities[]`	array	-	`word`=字级 / `segment`=句级（仅 asr/pro）
`target_language`	string	-	翻译目标语言代码（lite 不支持）
`hotwords`	string	-	热词增强，逗号分隔（仅 lite）
`recognize_mode`	string	auto	`auto`/`record_only`（仅 deepthink 流式模式）
`abbreviations`	Boolean	False	缩写词自动替换

语言支持

参数说明

audio/transcriptions 接口中有两个与语言相关的参数：

参数	作用	说明
`language`	指定音频文件内容的语言，增强识别效果	可选，留空则自动检测
`target_language`	将音频中识别的内容翻译成另外一种语言	可选，留空则不翻译，仅返回识别的原文

各模型参数支持情况

不同模型支持的参数不同：

模型	`language`	`target_language`
`senseaudio-asr-lite-1.5-260319`	✅	❌
`senseaudio-asr-1.5-260319`	✅	❌
`senseaudio-asr-pro-1.5-260319`	✅	✅
`senseaudio-asr-deepthink-1.5-260319`	✅	✅

[!WARNING] 部分模型只支持 language 或 target_language 参数，请以此表为准。

支持的语种详情

1. senseaudio-asr-lite-1.5-260319

支持语种：

代码	语言	代码	语言	代码	语言
`zh`	中文	`en`	英文	`yue`	粤语
`ja`	日文	`ko`	韩文	`vi`	越南语
`id`	印尼语	`th`	泰语	`ms`	马来语
`tl`/`fil`	菲律宾语	`ar`	阿拉伯语	`hi`	印地语
`bg`	保加利亚语	`hr`	克罗地亚语	`cs`	捷克语
`da`	丹麦语	`nl`	荷兰语	`et`	爱沙尼亚语
`fi`	芬兰语	`el`	希腊语	`hu`	匈牙利语
`ga`	爱尔兰语	`lv`	拉脱维亚语	`lt`	立陶宛语
`mt`	马耳他语	`pl`	波兰语	`pt`	葡萄牙语
`ro`	罗马尼亚语	`sk`	斯洛伐克语	`sl`	斯洛文尼亚语
`sv`	瑞典语

2. senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319

支持语种：

代码	语言	代码	语言	代码	语言
`ar`	阿拉伯语	`yue`	粤语	`zh`	中文
`nl`	荷兰语	`en`	英文	`fr`	法语
`de`	德语	`id`	印尼语	`it`	意大利语
`ja`	日文	`ko`	韩文	`ms`	马来语
`pt`	葡萄牙语	`ru`	俄语	`es`	西班牙语
`th`	泰语	`tr`	土耳其语	`ur`	乌尔都语
`vi`	越南语

3. senseaudio-asr-deepthink-1.5-260319

支持语种：

代码	语言	代码	语言	代码	语言
`ar`	阿拉伯语	`yue`	粤语	`zh`	中文
`nl`	荷兰语	`en`	英文	`fr`	法语
`de`	德语	`id`	印尼语	`it`	意大利语
`ja`	日文	`ko`	韩文	`ms`	马来语
`pt`	葡萄牙语	`ru`	俄语	`es`	西班牙语
`th`	泰语	`tr`	土耳其语	`ur`	乌尔都语
`vi`	越南语

用于翻译输出

响应格式

JSON（默认）

json

复制

{ "text": "识别出的文本内容" }

Text

纯文本，Content-Type: text/plain

text

复制

识别出的文本内容

Verbose JSON

json

复制

{
  "text": "道可道非常道",
  "duration": 2.1,
  "audio_info": { "duration": 5230, "format": "wav" },
  "segments": [
    {
      "id": 0,
      "start": 0.0,
      "end": 2.0,
      "text": "道可道非常道",
      "speaker": "speaker_0",
      "translation": "Translated"
    }
  ],
  "words": [
    { "word": "道", "start": 0.27, "end": 0.51 },
    { "word": "可", "start": 0.57, "end": 0.81 },
    { "word": "道", "start": 0.83, "end": 1.07 },
    { "word": "非", "start": 1.21, "end": 1.45 },
    { "word": "常", "start": 1.63, "end": 1.87 },
    { "word": "道", "start": 1.87, "end": 2.0 }
  ]
}

字段说明：

speaker: 需开启 enable_speaker_diarization
translation: 需设置 target_language
words: 需设置 timestamp_granularities[]=word
segment: 需设置 timestamp_granularities[]=segment

流式响应（SSE）

Content-Type: text/event-stream

plaintext

复制

data: {"delta": {"text": "增量文本"}, "finish_reason": null}
data: {"delta": {"text": "。"}, "finish_reason": "stop", "audio_info": {...}}
data: [DONE]

字段	说明
`delta.text`	本次返回的增量文本
`finish_reason`	`null`(进行中) / `stop`(完成) / `error`(错误)

错误处理

错误响应格式

json

复制

{
  "code": "invalid",
  "message": "file is required"
}

错误码速查

HTTP	code	说明
400	`invalid`	参数错误
429	`rate_limit_error`	请求频率过高
500	`internal_error`	服务端错误

各模型调用示例

1. senseaudio-asr-lite-1.5-260319

轻量级模型，适合简单快速的语音识别场景。

特性

✅ 热词增强 (hotwords)
❌ 不支持流式
❌ 不支持翻译
❌ 不支持说话人分离/字级时间戳

调用示例

基础调用

bash

复制

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@audio.mp3" \
  -F model="senseaudio-asr-lite-1.5-260319"

返回示例:（JSON）

json

复制

{
  "text": "今天天气不错适合出去走走"
}

指定语言 + 纯文本返回

bash

复制

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@audio.wav" \
  -F model="senseaudio-asr-lite-1.5-260319" \
  -F language="zh" \
  -F response_format="text"

返回示例:（Text）

plaintext

复制

今天天气不错适合出去走走

使用热词增强

bash

复制

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@meeting.wav" \
  -F model="senseaudio-asr-lite-1.5-260319" \
  -F language="zh" \
  -F response_format="json" \
  -F hotwords="张三,李四,项目Alpha,季度复盘"

返回示例:

json

复制

{
  "text": "张三和李四负责项目Alpha的季度复盘工作"
}

详细 JSON 格式

bash

复制

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@audio.wav" \
  -F model="senseaudio-asr-lite-1.5-260319" \
  -F response_format="verbose_json"

返回示例:（Verbose JSON）

json

复制

{
  "duration": 14640,
  "segments": null,
  "words": null,
  "text": "道可道非常道名可名非常名无名天地之始有名万物之母故常无欲以观其妙常有欲以观其皎"
}

2. senseaudio-asr-1.5-260319

标准模型，支持大多数高级功能。

特性

	流式返回	翻译	说话人分离	字级时间戳	句级时间戳	多语言支持
senseaudio-asr-1.5-260319	❌	❌	❌	✅	✅	✅

调用示例

基础调用

bash

复制

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@audio.mp3" \
  -F model="senseaudio-asr-1.5-260319"

返回示例:

json

复制

{
  "text": "欢迎使用我们的语音识别服务，希望能为您提供帮助。"
}

字级/句级时间戳

bash

复制

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@interview.wav" \
  -F model="senseaudio-asr-1.5-260319" \
  -F response_format="verbose_json" \
  -F "timestamp_granularities[]=word"

返回示例:

json

复制

{
  "task": "transcribe",
  "duration": 4.153,
  "segments": [
    {
      "id": 0,
      "start": 0.93,
      "end": 3.37,
      "text": "今天天气不错，适合出去走走。"
    }
  ],
  "words": [
    { "word": "今", "start": 0.93, "end": 1.09 },
    { "word": "天", "start": 1.09, "end": 1.25 },
    { "word": "天", "start": 1.25, "end": 1.37 },
    { "word": "气", "start": 1.37, "end": 1.57 },
    { "word": "不", "start": 1.57, "end": 1.65 },
    { "word": "错", "start": 1.65, "end": 1.89 },
    { "word": "适", "start": 1.89, "end": 2.13 },
    { "word": "合", "start": 2.71, "end": 2.87 },
    { "word": "出", "start": 2.87, "end": 2.93 },
    { "word": "去", "start": 2.93, "end": 3.11 },
    { "word": "走", "start": 3.11, "end": 3.21 },
    { "word": "走", "start": 3.21, "end": 3.37 }
  ],
  "text": "今天天气不错，适合出去走走。",
  "audio_info": {
    "duration": 4153,
    "format": "audio"
  }
}

3. senseaudio-asr-pro-1.5-260319

专业版模型，识别精度更高，适合对质量要求较高的场景。

特性

✅ 翻译
✅ 说话人分离
✅ 字级/句级时间戳
⭐ 更高的识别精度

调用示例

基础调用

bash

复制

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@audio.mp3" \
  -F model="senseaudio-asr-pro-1.5-260319"

返回示例:

json

复制

{
  "text": "第三季度的销售额达到了预期目标的115%，超额完成任务。"
}

完整功能调用（说话人分离 + 字级时间戳 + 翻译）

bash

复制

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@meeting.wav" \
  -F model="senseaudio-asr-pro-1.5-260319" \
  -F response_format="verbose_json" \
  -F enable_speaker_diarization="true" \
  -F max_speakers="4" \
  -F "timestamp_granularities[]=word" \
  -F "timestamp_granularities[]=segment" \
  -F target_language="en"

返回示例:

json

复制

{
  "task": "transcribe",
  "duration": 4.153,
  "segments": [
    {
      "id": 0,
      "start": 0.95,
      "end": 3.37,
      "text": "今天天气不错，适合出去走走。",
      "speaker": "speaker_0",
      "translation": "Today's weather is nice, suitable for going out for a walk."
    }
  ],
  "words": [
    { "word": "今", "start": 0.93, "end": 1.09 },
    { "word": "天", "start": 1.09, "end": 1.25 },
    { "word": "天", "start": 1.25, "end": 1.37 },
    { "word": "气", "start": 1.37, "end": 1.57 },
    { "word": "不", "start": 1.57, "end": 1.65 },
    { "word": "错", "start": 1.65, "end": 1.89 },
    { "word": "适", "start": 1.89, "end": 2.13 },
    { "word": "合", "start": 2.71, "end": 2.87 },
    { "word": "出", "start": 2.87, "end": 2.93 },
    { "word": "去", "start": 2.93, "end": 3.11 },
    { "word": "走", "start": 3.11, "end": 3.21 },
    { "word": "走", "start": 3.21, "end": 3.37 }
  ],
  "text": "Today's weather is nice, suitable for going out for a walk.",
  "audio_info": {
    "duration": 4153,
    "format": "audio"
  }
}

4. senseaudio-asr-deepthink-1.5-260319

语音转写模型，整理口语化的语音输入。

特性

✅ 流式返回
✅ 翻译
✅ recognize_mode 参数（仅流式）
❌ enable_punctuation（静默忽略）
❌ 不支持说话人分离/字级时间戳
⭐ 最高识别精度，适合复杂场景

调用示例

基础调用

bash

复制

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@complex_audio.mp3" \
  -F model="senseaudio-asr-deepthink-1.5-260319"

返回示例:

json

复制

{
  "text": "量子计算利用量子力学原理如叠加态和纠缠态来处理信息比传统计算机在某些特定问题上具有指数级的速度优势"
}

翻译

bash

复制

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@complex_audio.mp3" \
  -F model="senseaudio-asr-deepthink-1.5-260319" \
  -F target_language="en"

返回示例:

json

复制

{
  "text": "The weather is nice today, suitable for going out for a walk."
}