Seed ASR 大模型流式识别

可用

基于火山引擎 Seed ASR 大模型,支持中英文及24种语言,抗噪能力强。按音频时长计费。

模型ID: seed-asr-stream
类型: 语音识别模型
提供商: seed-asr
定价
输入: ¥7.06/小时

API 基础信息

基础地址: https://ai.xingyunv2.cn/api/v1
请求方式: POST
端点: /audio/transcriptions

认证方式

Authorization: Bearer YOUR_API_KEY
Content-Type: multipart/form-data  (文件上传)
Content-Type: application/json     (URL/Base64方式)

注册账号后在控制台获取API密钥

代码示例

# 方式1: 文件上传(推荐)
curl https://ai.xingyunv2.cn/api/v1/audio/transcriptions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@/path/to/audio.wav" \
  -F "model=seed-asr-stream" \
  -F "format=wav"

# 方式2: JSON + URL
curl https://ai.xingyunv2.cn/api/v1/audio/transcriptions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "seed-asr-stream",
    "url": "https://example.com/audio.wav",
    "format": "wav"
  }'

响应示例

{
  "text": "你好,请帮我查一下今天的天气。",
  "task": "transcribe",
  "model": "seed-asr-stream",
  "duration": 3.696,
  "utterances": [
    {
      "text": "你好,",
      "start_time": 0,
      "end_time": 1705,
      "words": [
        {"text": "你", "start_time": 740, "end_time": 860},
        {"text": "好", "start_time": 860, "end_time": 1020}
      ]
    },
    {
      "text": "请帮我查一下今天的天气。",
      "start_time": 2110,
      "end_time": 3696
    }
  ]
}

请求参数

参数 类型 必填 说明
model string 模型ID: seed-asr-stream
file file 三选一 音频文件(multipart/form-data 上传,OpenAI兼容,推荐
url string 三选一 音频文件URL(公网可访问)
audio string 三选一 Base64编码的音频数据(系统自动转URL提交火山引擎)
format string 建议 音频格式: wav / mp3 / ogg / raw(PCM)。不填则自动检测
language string 语言代码(如 zh-CN, en-US, ja-JP, ko-KR, yue-CN等24种)。留空自动识别
enable_itn boolean 逆文本正则化("一九七零年"→"1970年"),默认 true
enable_punc boolean 自动标点,默认 true
enable_ddc boolean 语义顺滑(删除停顿词/语气词),默认 true
show_utterances boolean 返回分句+分词信息(含时间戳),默认 false
enable_speaker_info boolean 说话人分离(10人以内效果好),默认 false

错误码说明

状态码 说明
200 请求成功
400 请求参数错误
401 API密钥无效或缺失
402 余额不足
404 模型不存在或未启用
500 服务器内部错误