Whisper-Large-v3 モデル
- モデル名: Whisper-Large-v3
- 説明: 最先端の自動音声認識 (ASR) および翻訳モデル。OpenAIにより開発され、500万時間以上のラベル付き音声データで学習済み。多言語およびゼロショット音声タスクにおいて卓越した性能を発揮。
- モデルID:
whisper-large-v3
- 対応言語: 多言語対応
主な機能
- 最大25MBの音声ファイルを文字起こしおよび翻訳
- 音声認識および翻訳タスクにおいて高い精度を実現
- OpenAI互換エンドポイントを通じて文字起こし・翻訳が可能
リクエストパラメータ
パラメータ名 | 型 | デフォルト | 説明 | エンドポイント |
---|---|---|---|---|
model | 文字列 | 必須 | 使用するモデルのID | transcriptions , translations |
prompt | 文字 | 任意 | 文字起こしのスタイルや語彙に影響を与えるプロンプト (例: 「間やためらいも含めて正確に文字起こしをしてください。」) | transcriptions , translations |
temperature | 数値 | 0 | 0から1の範囲でサンプリング温度を指定。高い値でランダム性を増し、低い値でより焦点を絞った出力を生成。 | transcriptions , translations |
file | ファイル | 必須 | FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。最大25MB | transcriptions , translations |
response format | 文字 | JSON | 出力形式: JSONまたはテキスト | transcriptions , translations |
language | 文字列 | 任意 | 入力音声の言語 (ISO-639-1形式、例: en)。指定すると精度とレイテンシが向上。 | transcriptions |
Qwen2-Audio Instruct モデル
- モデル名: Qwen2-Audio Instruct
- 説明: 指示調整 (instruction-tuning) 済みの大規模音声言語モデル。Qwen-7BにWhisper-large-v3音声エンコーダーを組み合わせています (82億パラメータ)。
- モデルID:
qwen2-audio-7b-instruct
- 対応言語: 多言語対応
本モデルは現在ベータ版として提供されています。
主な機能
- 音声をインテリジェンスへ変換:GPT-4風の音声アプリを迅速に構築可能
- 任意の音声入力に対して直接的な質問応答を提供
- 単一の統合モデルを通して、リアルタイム会話、文字起こし、翻訳、分析を含む包括的な音声処理を実行
カスタマイズと制御
- システムレベルプロンプト: リクエスト内のAssistant Promptを利用して、特定用途に合わせてモデル挙動を調整可能。詳細は リクエストパラメータ 内の
messages
パラメータを参照。- ブランド表記の統一 (例: BrandName vs brandname)
- ドメイン固有の専門用語
- 応答スタイルとトーンの制御
音声処理機能
- 無音検出: 音声中の意味のある間や沈黙を的確に検出
- ノイズ除去: 高度なノイズフィルタリングにより音声をクリーンに処理
- 多言語処理: 自動言語検出による複数言語のサポート
分析機能
- 感情分析: 発話の感情的要素を検出・分析
- 複数話者処理: 複数人による会話を処理
- 混合音声理解: 発話・音楽・環境音を含む音声を理解
音声認識性能
- 数値は公開されているQwen2-Audio論文より引用
- WER% (数値が低いほど良好)
言語 | データセット | Qwen2-Audio | Whisper-large-v3 | 改善率 |
---|---|---|---|---|
英語 | Common Voice 15 | 8.6% | 9.3% | +7.5% |
中国語 | Common Voice 15 | 6.9% | 12.8% | +46.1% |
リクエストパラメータ
パラメータ名 | 型 | デフォルト | 説明 | エンドポイント |
---|---|---|---|---|
model | 文字列 | 必須 | 使用するモデルのID。現在は Qwen2-Audio-7B-Instruct のみ利用可能。 | すべて |
messages | メッセージ | 必須 | role (user/system/assistant)、type (text/audio_content)、audio_content (base64音声) を含むメッセージのリスト | すべて |
response_format | 文字列 | JSON | 出力形式: JSONまたはテキスト | すべて |
temperature | 数値 | 0 | 0から1の範囲でサンプリング温度を指定。高い値でランダム性を増し、低い値でより焦点を絞った出力を生成。 | すべて |
max_tokens | 数値 | 1000 | 生成する最大トークン数 | すべて |
file | ファイル | 必須 | FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。各ファイルは30秒以内である必要があります。 | すべて |
language | 文字列 | 任意 | 文字起こしや翻訳の対象言語 | transcription , translation |
stream | ブール値 | false | ストリーミング応答を有効化 | すべて |
stream_options | オブジェクト | 任意 | ストリーミング応答の追加設定(例: {"include_usage": true} ) | すべて |