音声コンテンツを指定した言語に翻訳します。

エンドポイント

POST https://api.sambanova.ai/v1/audio/translations

リクエストパラメータ

以下の表では、音声翻訳リクエストに必要な各パラメータの型、説明、デフォルト値を示しています。
音声モデルを使用する際は、精度向上のために language パラメータの指定を強く推奨します。

Whisper Large v3

パラメータ説明デフォルト値
modelString使用するモデルのID必須
fileFileFLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。最大25MB必須
promptString文字起こしのスタイルや語彙に影響を与えるプロンプト (例: 「間やためらいも含めて正確に文字起こしをしてください。」)任意
response_formatString出力形式: JSONまたはテキストjson
languageString入力音声の言語 (ISO-639-1形式、例: en)。指定すると精度とレイテンシが向上。任意
streamBooleanストリーミング応答を有効化false
stream_optionsObjectストリーミング応答の追加設定 (例: {"include_usage": true})任意

Qwen2-Audio-7B-Instruct

パラメータ説明デフォルト値
modelString使用するモデルのID必須
response_formatString出力形式: JSONまたはテキストjson
temperatureNumber0から1の範囲でサンプリング温度を指定。高い値でランダム性を増し、低い値でより焦点を絞った出力を生成。0
max_tokensNumber生成する最大トークン数1000
fileFileFLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。各ファイルは30秒以内である必要があります。必須
languageString文字起こしや翻訳の対象言語任意
streamBooleanストリーミング応答を有効化false
stream_optionsObjectストリーミング応答の追加設定 (例: {"include_usage": true})任意

リクエスト形式

このセクションでは、さまざまな方法でリクエストを送信する際の具体例を示します。

CURL

curl --location 'https://api.sambanova.ai/v1/audio/translations' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--form 'model="Whisper-Large-v3"' \
--form 'language="spanish"' \
--form 'response_format="json"' \
--form 'file=@"/path/to/audio/file.mp3"' \
--form 'stream="true"'

Python

import requests

def translate_audio(audio_file_path, api_key, target_language="spanish"):
      headers = {"Authorization": f"Bearer {api_key}"}

      files = {'file': open(audio_file_path, 'rb')}
      
      data = {
          'model': 'Whisper-Large-v3',
          'language': target_language,
          'response_format': 'json',
          'stream': True  # Optional
      }
      response = requests.post(
          "https://api.sambanova.ai/v1/audio/translations",
          headers=headers,
          files=files,
          data=data
      )
      return response.json()

レスポンス形式

この API は、入力された音声を指定フォーマットでテキストに変換して返します。

JSON

{
    "text": "Es un efecto de sonido de una campana sonando, específicamente una campana de iglesia."
}

Text

Es un efecto de sonido de una campana sonando, específicamente una campana de iglesia.