音声データを指定された言語のテキストに変換します。

エンドポイント

POST https://api.sambanova.ai/v1/audio/transcriptions

リクエストパラメータ

以下の表では、音声書き起こしリクエストに必要な各パラメータの型、説明、デフォルト値を示しています。
音声モデルを使用する際は、精度向上のために language パラメータの指定を強く推奨します。

Whisper Large v3

パラメータ説明デフォルト値
modelString使用するモデルのID必須
fileFileFLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。最大25MB必須
promptString文字起こしのスタイルや語彙に影響を与えるプロンプト (例: 「間やためらいも含めて正確に文字起こしをしてください。」)任意
response_formatString出力形式: JSONまたはテキストjson
languageString入力音声の言語 (ISO-639-1形式、例: en)。指定すると精度とレイテンシが向上。任意
streamBooleanストリーミング応答を有効化false
stream_optionsObjectストリーミング応答の追加設定 (例: {"include_usage": true})任意

Qwen2-Audio-7B-Instruct

パラメータ説明デフォルト値
modelString使用するモデルのID必須
fileFileFLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。各ファイルは30秒以内である必要があります。必須
promptString文字起こしのスタイルや語彙に影響を与えるプロンプト (例: 「間やためらいも含めて正確に文字起こしをしてください。」)任意
response_formatString出力形式: JSONまたはテキストjson
temperatureNumber0から1の範囲でサンプリング温度を指定。高い値でランダム性を増し、低い値でより焦点を絞った出力を生成。0
max_tokensNumber生成する最大トークン数1000
languageString文字起こしや翻訳の対象言語任意
streamBooleanストリーミング応答を有効化false
stream_optionsObjectストリーミング応答の追加設定 (例: {"include_usage": true})任意

リクエスト形式

CURL

このセクションでは、さまざまな方法でリクエストを送信する際の具体例を示します。
curl --location 'https://api.sambanova.ai/v1/audio/transcriptions' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--form 'model="Whisper-Large-v3"' \
--form 'language="spanish"' \
--form 'response_format="json"' \
--form 'file=@"/path/to/audio/file.mp3"' \
--form 'stream="true"'

Python

import requests

def transcribe_audio(audio_file_path, api_key, language="english"):
  headers = {"Authorization": f"Bearer {api_key}"}

  files = {"file": open(audio_file_path, "rb")}

  data = {
      "model": "Whisper-Large-v3",
      "language": language,
      "response_format": "json",
      "stream": true,  # Optional
  }

  response = requests.post(
      "https://api.sambanova.ai/v1/audio/transcriptions",
      headers=headers,
      files=files,
      data=data,
  )

  return response.json()

レスポンス形式

この API は、入力された音声を指定フォーマットでテキストに変換して返します。

JSON

{
    "text": "It's a sound effect of a bell chiming, specifically a church bell."
}

Text

It's a sound effect of a bell chiming, specifically a church bell.