SambaCloud Vision API を使用すると、テキストと画像の両方を入力として処理するモデルを利用できます。
詳細については、 Vision モデル のドキュメントをご参照ください。

エンドポイント

テキストおよび画像データを含む入力に対して、モデルの応答を生成します。
POST https://api.sambanova.ai/v1/chat/completions

リクエストパラメータ

以下の表では、Visionリクエストで使用可能なパラメータの一覧、データ型、説明、およびデフォルト値を示します。
パラメータ説明必須
modelString使用するモデルのID。はい
messagesArray of objects会話を構成するメッセージの配列。各メッセージにはテキストと画像の両方を含めることができます。詳細については、下記の「画像入力におけるメッセージ構造」を参照してください。はい
max_tokensInteger応答として生成される最大トークン数。入力と出力のトークン合計はモデルのコンテキスト長に制限されます。デフォルト値は 1000いいえ
temperatureFloat応答のランダム性を制御します。0~1 の範囲で指定可能。デフォルト値は 0いいえ
top_pFloat累積確率に基づき、次のトークン候補の数を調整します。0~1 の範囲で指定可能。デフォルト値は 0.9いいえ
top_kInteger次に予測されるトークンや単語の候補数を制限します1~100の範囲で指定可能。デフォルト値は 50いいえ
stopString or Array応答生成を停止させる最大4つのシーケンスを指定できます。デフォルト値は nullいいえ
streamBooleantrue に設定すると、部分的なメッセージデルタがストリームで送信されます。デフォルト値は falseいいえ
stream_optionsObjectストリーミング応答のオプションstream: true の場合のみ設定可能です。利用可能なオプションinclude_usage (boolean)。デフォルト値は nullいいえ

画像入力におけるメッセージ構造

  • 1リクエストにつき画像は1枚のみ対応:複数画像を処理したい場合は、個別にリクエストを送信してください。
  • エンコーディング要件:画像は base64 でエンコードし、サイズ制限内に収めてください。不正なエンコードはエラーになります。詳細は API エラーページをご参照ください。
パラメータ説明必須
typeStringコンテンツの種別を示します。画像の場合は image_url を指定してください。はい
image_url.urlStringbase64 エンコードされた画像データ。data:<image_format>;base64,<data> の形式に従ってください。はい

リクエスト例

この例では、提供終了モデル Llama-3.2-11B-Vision-Instruct を使用しています。
{
  "model": "Llama-3.2-11B-Vision-Instruct",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What is happening in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/jpeg;base64,<base64_encoded_image>"
          }
        }
      ]
    }
  ],
  "max_tokens": 300,
  "temperature": 0.7,
  "top_p": 0.9,
  "top_k": 50
}

レスポンス

この API は、入力に対するモデルの応答を含む chat completion オブジェクトを返します。
この例では自然の風景画像が入力されており、実際の応答は送信した画像に応じて異なります。

レスポンス例

この例では、提供終了モデル Llama-3.2-11B-Vision-Instruct を使用しています。
{
  "id": "chatcmpl-456",
  "object": "chat.completion",
  "created": 1677652288,
  "model": "Llama-3.2-11B-Vision-Instruct",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "This image shows a sunset over a mountain range with a lake in the foreground. The scene is serene and filled with vibrant colors."
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 50,
    "completion_tokens": 32,
    "total_tokens": 82
  }
}