Vision - SambaNova Documentation

SambaCloud Vision API を使用すると、テキストと画像の両方を入力として処理するモデルを利用できます。

詳細については、 Vision モデルのドキュメントをご参照ください。

エンドポイント

テキストおよび画像データを含む入力に対して、モデルの応答を生成します。

POST https://api.sambanova.ai/v1/chat/completions

リクエストパラメータ

以下の表では、Visionリクエストで使用可能なパラメータの一覧、データ型、説明、およびデフォルト値を示します。

パラメータ	型	説明	必須
`model`	String	使用するモデルのID。	はい
`messages`	Array of objects	会話を構成するメッセージの配列。各メッセージにはテキストと画像の両方を含めることができます。詳細については、下記の「画像入力におけるメッセージ構造」を参照してください。	はい
`max_tokens`	Integer	応答として生成される最大トークン数。入力と出力のトークン合計はモデルのコンテキスト長に制限されます。デフォルト値は `1000`。	いいえ
`temperature`	Float	応答のランダム性を制御します。`0`~`1` の範囲で指定可能。デフォルト値は `0`。	いいえ
`top_p`	Float	累積確率に基づき、次のトークン候補の数を調整します。`0`~`1` の範囲で指定可能。デフォルト値は `0.9`。	いいえ
`top_k`	Integer	次に予測されるトークンや単語の候補数を制限します`1`~`100`の範囲で指定可能。デフォルト値は `50`。	いいえ
`stop`	String or Array	応答生成を停止させる最大4つのシーケンスを指定できます。デフォルト値は `null`。	いいえ
`stream`	Boolean	`true` に設定すると、部分的なメッセージデルタがストリームで送信されます。デフォルト値は `false`。	いいえ
`stream_options`	Object	ストリーミング応答のオプション`stream: true` の場合のみ設定可能です。利用可能なオプション`include_usage` (boolean)。デフォルト値は `null`。	いいえ

画像入力におけるメッセージ構造

1リクエストにつき画像は1枚のみ対応：複数画像を処理したい場合は、個別にリクエストを送信してください。
エンコーディング要件：画像は base64 でエンコードし、サイズ制限内に収めてください。不正なエンコードはエラーになります。詳細は API エラーページをご参照ください。

パラメータ	型	説明	必須
`type`	String	コンテンツの種別を示します。画像の場合は `image_url` を指定してください。	はい
`image_url.url`	String	base64 エンコードされた画像データ。`data:<image_format>;base64,<data>` の形式に従ってください。	はい

リクエスト例

この例では、提供終了モデル Llama-3.2-11B-Vision-Instruct を使用しています。

{
  "model": "Llama-3.2-11B-Vision-Instruct",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What is happening in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/jpeg;base64,<base64_encoded_image>"
          }
        }
      ]
    }
  ],
  "max_tokens": 300,
  "temperature": 0.7,
  "top_p": 0.9,
  "top_k": 50
}

レスポンス

この API は、入力に対するモデルの応答を含む chat completion オブジェクトを返します。

この例では自然の風景画像が入力されており、実際の応答は送信した画像に応じて異なります。

レスポンス例

この例では、提供終了モデル Llama-3.2-11B-Vision-Instruct を使用しています。

{
  "id": "chatcmpl-456",
  "object": "chat.completion",
  "created": 1677652288,
  "model": "Llama-3.2-11B-Vision-Instruct",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "This image shows a sunset over a mountain range with a lake in the foreground. The scene is serene and filled with vibrant colors."
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 50,
    "completion_tokens": 32,
    "total_tokens": 82
  }
}

エンドポイント

API

​エンドポイント

​リクエストパラメータ

​画像入力におけるメッセージ構造

​リクエスト例

​レスポンス

​レスポンス例

エンドポイント

リクエストパラメータ

画像入力におけるメッセージ構造

リクエスト例

レスポンス

レスポンス例