エンドポイント
リクエストパラメータ
以下の表では、音声翻訳リクエストに必要な各パラメータの型、説明、デフォルト値を示しています。音声モデルを使用する際は、精度向上のために
language
パラメータの指定を強く推奨します。Whisper Large v3
パラメータ | 型 | 説明 | デフォルト値 |
---|---|---|---|
model | String | 使用するモデルのID | 必須 |
file | File | FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。最大25MB | 必須 |
prompt | String | 文字起こしのスタイルや語彙に影響を与えるプロンプト (例: 「間やためらいも含めて正確に文字起こしをしてください。」) | 任意 |
response_format | String | 出力形式: JSONまたはテキスト | json |
language | String | 入力音声の言語 (ISO-639-1形式、例: en)。指定すると精度とレイテンシが向上。 | 任意 |
stream | Boolean | ストリーミング応答を有効化 | false |
stream_options | Object | ストリーミング応答の追加設定 (例: {"include_usage": true} ) | 任意 |
Qwen2-Audio-7B-Instruct
パラメータ | 型 | 説明 | デフォルト値 |
---|---|---|---|
model | String | 使用するモデルのID | 必須 |
response_format | String | 出力形式: JSONまたはテキスト | json |
temperature | Number | 0から1の範囲でサンプリング温度を指定。高い値でランダム性を増し、低い値でより焦点を絞った出力を生成。 | 0 |
max_tokens | Number | 生成する最大トークン数 | 1000 |
file | File | FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。各ファイルは30秒以内である必要があります。 | 必須 |
language | String | 文字起こしや翻訳の対象言語 | 任意 |
stream | Boolean | ストリーミング応答を有効化 | false |
stream_options | Object | ストリーミング応答の追加設定 (例: {"include_usage": true} ) | 任意 |