<YOUR API KEY>
のような部分は、実際のAPIキーで書き換えてください。
エンドポイントパス
エンドポイントのパスに応じて、サーバー側で実行されるアクションが指定されます。
モデル名
APIリクエストの際は、適切に接続するために完全なモデル名が必要です。たとえば、「Meta-Llama-3.1-405b-Instruct」のような名称を使います。カジュアルな場面では「Llama 3.1 405B」のように略称で呼ばれることもありますが、リクエスト時には、対応モデルのページに記載されている完全な名称を使用してください。
プロンプト入力
プロンプトにはsystem
とuser
の二つの役割があります。system
プロンプトはモデルの応答の振る舞いを設定し、user
プロンプトはモデルに実行させたいタスクや質問を動的に指示します。
ストップシーケンス
ストップシーケンスとして指定した文字列に到達すると、APIの出力が停止します。ストップシーケンスは、文字列、または文字列の配列として指定できます。
モデルパラメータ
max_tokens 生成するトークンの最大数を指定します。 ストリーム レスポンスをストリーム形式で受け取るか、一括で受け取るかを設定します。 ストリームオプション このオプションを有効にすると、データの前に追加のチャンク ([DONE]
メッセージ) がストリーミングされます。このチャンクの usage
フィールドにはリクエスト全体のトークン使用量が表示され、choices
フィールドは常に空の配列になります。その他のチャンクにも usage
フィールドが含まれますが、その値は null
になります。使用統計にはOpenAIのメトリクスに加え、SambaCloud独自の追加メトリクスも含まれます。
temperature (温度)
応答のランダム性の度合いを制御します。
top_p
top_p (核サンプリング) パラメータは、累積確率に基づいて次のトークン候補の数を動的に調整します。
top_k
top_k (数値型) パラメータは、次に予測される単語やトークンの候補数を制限します。デフォルト値はMAX_INT
です。