詳細については、 Vision モデル のドキュメントをご参照ください。
エンドポイント
テキストおよび画像データを含む入力に対して、モデルの応答を生成します。リクエストパラメータ
以下の表では、Visionリクエストで使用可能なパラメータの一覧、データ型、説明、およびデフォルト値を示します。パラメータ | 型 | 説明 | 必須 |
---|---|---|---|
model | String | 使用するモデルのID。 | はい |
messages | Array of objects | 会話を構成するメッセージの配列。各メッセージにはテキストと画像の両方を含めることができます。詳細については、下記の「画像入力におけるメッセージ構造」を参照してください。 | はい |
max_tokens | Integer | 応答として生成される最大トークン数。入力と出力のトークン合計はモデルのコンテキスト長に制限されます。デフォルト値は 1000 。 | いいえ |
temperature | Float | 応答のランダム性を制御します。0 ~1 の範囲で指定可能。デフォルト値は 0 。 | いいえ |
top_p | Float | 累積確率に基づき、次のトークン候補の数を調整します。0 ~1 の範囲で指定可能。デフォルト値は 0.9 。 | いいえ |
top_k | Integer | 次に予測されるトークンや単語の候補数を制限します1 ~100 の範囲で指定可能。デフォルト値は 50 。 | いいえ |
stop | String or Array | 応答生成を停止させる最大4つのシーケンスを指定できます。デフォルト値は null 。 | いいえ |
stream | Boolean | true に設定すると、部分的なメッセージデルタがストリームで送信されます。デフォルト値は false 。 | いいえ |
stream_options | Object | ストリーミング応答のオプションstream: true の場合のみ設定可能です。利用可能なオプションinclude_usage (boolean)。デフォルト値は null 。 | いいえ |
画像入力におけるメッセージ構造
- 1リクエストにつき画像は1枚のみ対応:複数画像を処理したい場合は、個別にリクエストを送信してください。
- エンコーディング要件:画像は base64 でエンコードし、サイズ制限内に収めてください。不正なエンコードはエラーになります。詳細は API エラーページをご参照ください。
パラメータ | 型 | 説明 | 必須 |
---|---|---|---|
type | String | コンテンツの種別を示します。画像の場合は image_url を指定してください。 | はい |
image_url.url | String | base64 エンコードされた画像データ。data:<image_format>;base64,<data> の形式に従ってください。 | はい |
リクエスト例
この例では、提供終了モデル Llama-3.2-11B-Vision-Instruct を使用しています。
レスポンス
この API は、入力に対するモデルの応答を含む chat completion オブジェクトを返します。この例では自然の風景画像が入力されており、実際の応答は送信した画像に応じて異なります。
レスポンス例
この例では、提供終了モデル Llama-3.2-11B-Vision-Instruct を使用しています。