概要 - SambaNova Documentation

2025年5月28日

SambaCloud が AWS Marketplaceにて SaaS 提供を開始しました。 ユーザーは自身の AWS アカウントを用いてサブスクリプション登録ができ、AWS PrivateLink を介して安全かつ高速、スケーラブルな接続を実現します。Llama 4、DeepSeek、Whisper といったトップレベルのオープンソースモデルに、プライベートかつリアルタイムでアクセス可能です。SambaNova 独自の Reconfigurable Dataflow Unit (RDU( により、GPUと比較して最大10倍の高速推論が可能となり、リアルタイムAIアプリケーションに最適です。 主な特徴

AWS Marketplace 経由で提供：AWSアカウントでサブスク登録が可能。請求もAWS経由で一元管理。
PrivateLink 対応：AWS VPCとSambaCloud間をパブリックインターネットを介さず、低レイテンシかつ安全に接続。
迅速に利用をスタート：Llama 4、DeepSeek-R1 671B、Whisper などのモデルで数分以内に推論を開始可能。

主なメリット

高性能な推論基盤：SambaNova独自のRDUアーキテクチャにより、GPUと比較して最大10倍の推論速度を実現。
プライバシー設計を最優先：SambaNovaはお客様のデータを一切保存せず、データの完全な管理権限は常にユーザーにあります。
ファインチューニング済みモデルに対応：カスタムモデルをコード変更なしでそのままデプロイ可能です。

詳細は AWS Marketplace 連携ガイドをご覧ください。

2025年5月6日

DeepSeek-V3-0324 が Function Calling に対応しました。
このアップデートにより、モデルの出力から外部関数を直接呼び出すことが可能になり、より柔軟かつプログラマブルなインタラクションが実現します。
詳しくは Function Calling のページをご覧ください。

2025年4月29日

Qwen3-32B を Preview モデルとして SambaCloud に追加しました。
Qwen3-32B は大規模な多言語対応LLMであり、Qwen3シリーズの一部として、質問応答、要約、推論、コーディングなど、汎用的な言語タスク全般において高い性能を発揮します。

Qwen3-32B
- すべてのユーザーが Playground および API を通じて利用可能です。
- 詳細は対応モデルおよびレート制限のページをご参照ください。

2025年4月18日

Whisper-Large-V3 を新たに追加しました。
Whisper-Large-V3 は、OpenAI が開発した最新の大規模音声認識 (ASR) モデルです。従来よりも高精度な文字起こし、多言語対応の強化、そしてノイズの多い音声環境への高い耐性を備えています。

Whisper-Large-V3
- すべてのユーザーが API 経由で利用可能です。
- 詳細は対応モデルおよびレート制限のページをご参照ください。

2025年4月16日

Llama-4-Maverick-17B-128E-Instruct が画像入力に対応しました。
この強化版モデルでは、テキストプロンプトに加えて最大2枚の画像をコンテキストとして与えることが可能になりました。
本モデルは Playground および API を通じてすべてのユーザーが利用可能です。

2025年4月14日

SambaCloud におけるモデル提供の最適化および強化の一環として、以下のモデルは廃止予定となりました。

Llama-3.1-Swallow-70B-Instruct-v0.3
Llama-3.1-Tulu-3-405B
Llama-3.2-11B-Vision-Instruct
Llama-3.2-90B-Vision-Instruct
Meta-Llama-3.1-70B-Instruct
Qwen2.5-72B-Instruct
Qwen2.5-Coder-32B-Instruct

これらのモデルは今後アップデートされず、2025年4月14日以降にアクティブなエンドポイントから削除される予定です。
代替モデルの案内や移行に関する詳細は、廃止予定モデルをご覧ください。

2025年4月9日

Llama 4 ファミリーの新モデル「Maverick」が SambaCloud に登場しました。
このモデルは 4000 億パラメータ規模の Mixture-of-Experts (MoE) アーキテクチャを採用し、17 億のアクティブパラメータと 128 のエキスパートを備えています。Gemma 3、Gemini 2.0 Flash、Mistral 3.1 といった最新モデルを凌駕するパフォーマンスを各種ベンチマークにおいて実現しています。

Llama-4-Maverick-17B-128E-Instruct
- 本モデルは Preview モデルとして追加されており、現在はテキスト入力のみ対応しています（画像入力対応は近日中に追加予定）。
- すべてのユーザーが Playground および API を通じて利用可能です。
- 詳細は対応モデルおよびレート制限のページをご覧ください。

2025年4月7日

Llama 4系の最新モデルである Llama 4 Scout が、SambaCloud 上で利用可能になりました。
このモデルは、1090 億パラメータ規模の Mixture-of-Experts (MoE) 構造を採用し、17 億のアクティブパラメータと 16 のエキスパートで構成されています。Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1 といった最新モデルと比較しても、各種ベンチマークにおいて競争力のある性能を発揮します。

Llama-4-Scout-17B-16E-Instruct
- 本モデルは Preview モデルとして追加されており、現在はテキスト入力のみに対応しています (画像入力は近日中に対応予定です)。
- すべてのユーザーが Playground および API を通じて利用可能です。
- 詳細は対応モデルおよびレート制限のページをご覧ください。

2025年3月27日

DeepSeek V3-0324 を SambaCloud に追加しました。
DeepSeek V3-0324 は、従来のnon-reasoning系のプロプライエタリモデルを上回る、初のオープンソースnon-reasoningモデルです。さらに、reasoning性能の大幅な向上に加え、フロントエンド開発への対応力やツールの活用能力にも優れています。

DeepSeek-V3-0324
- 本モデルは Preview モデルとして追加されており、現在はリソースに制限がありますが、Production モデルとしての提供に向けて開発を進めています。
- Playground および API を通じて、すべてのユーザーが利用可能です。
- 詳細は対応モデルおよびレート制限のページをご覧ください。

2025年3月20日

E5-Mistral-7B-Instruct
- E5-Mistral-7B-Instruct を追加しました。E5-Mistral-7B-Instruct は、Mistral アーキテクチャをベースとしたEmbedding (埋め込み) モデルです。ベースモデル自体は多言語対応機能を備えていますが、E5-Mistral-7B-Instruct に関しては、多言語ベンチマークでの性能が限定的であるため、英語での利用を推奨します。
- 本モデルは、すべてのユーザーが API を通じて利用可能です。
- 詳細は、Embedding およびエンドポイントのドキュメントをご覧ください。

2025年3月18日

DeepSeek-R1
- DeepSeek-R1 は Preview モデルから Production モデルへ移行し、現在は Playground および API を通じて利用可能です。
- Production モデルとして提供されることで、最大コンテキスト長が 16kトークンに拡張され、すべてのユーザーが利用できます。
モデル一覧エンドポイント
- 現在 SambaCloud 上で利用可能なモデル情報を取得できるモデル一覧エンドポイントを新たに追加しました。

2025年3月13日

DeepSeek-R1-Distill-Llama-70B モデルを更新しました。
- 本モデルの最大コンテキスト長が 128kトークンに拡張され、Playground および API を通じて利用可能になりました。

2025年3月6日

QwQ-32B モデルを追加しました。
- QwQ-32B は、Alibaba の Qwen チームによって公開された最先端のreasoningモデルです。
  アクティブパラメータ数が 37B に留まるにも関わらず、671B パラメータの DeepSeek-R1 に匹敵する性能を発揮します。高度な言語理解力と創造的reasoning能力に加え、QwQ-32B はエージェント機能も強化されており、批判的思考、外部ツールの活用、動的な環境フィードバックに基づく推論の適応といった高度な挙動にも対応しています。

2025年3月5日

Llama-3.1-Swallow-8B-Instruct-v0.3 モデルを追加しました。
Llama-3.1-Swallow-70B-Instruct-v0.3 モデルを追加しました。

Llama 3.1 Swallow シリーズは、Meta の Llama 3.1 アーキテクチャを継続事前学習することで開発された、日本語特化モデルです。8B および 70B パラメータのバージョンが提供されており、2000 億トークン規模のデータ (Webコーパス、技術文書、多言語Wikipedia など) を用いた学習により、英語の性能を維持しながら、日本語に対する理解能力を強化しています。また、v0.3 に代表される Instruct 系のバリアントは、合成日本語データを用いてファインチューニングされており、日本語ベンチマーク (MT-Bench など) においても最先端の性能を達成しています。Instruct v0.3 は前バージョンと比べて性能が向上しており、8B モデルでは 8.4 ポイント、70B モデルでは 5.68 ポイントのスコア改善が確認されています。詳細は対応モデルのページをご覧ください。

2025年2月25日

Llama-3.3-70B
- Llama-3.3-70B の最大コンテキスト長が 128k トークンに拡張されました。本モデルは Production モデルとして、Playground および API を通じて利用可能です。

2025年2月21日

DeepSeek-R1
- DeepSeek-R1 の最大コンテキスト長が 8k トークンに拡張されました。本モデルは Preview モデルとして、Playground を通じて利用可能です。

2025年2月13日

最先端のオープンソースモデル DeepSeek-R1 が SambaCloud で利用可能になりました。
DeepSeek-R1 は、OpenAI の o1 に匹敵する性能を持ち、世界的に注目を集めている革新的なモデルです。現在、非常に高い需要があるため、Preview フェーズではアクセスに制限がありますが、SambaCloud 上では圧倒的な高速推論を体験いただけます。
これはまだ始まりにすぎません。さらなる進化にもぜひご期待ください！

DeepSeek-R1
- DeepSeek-R1 は、6710 億パラメータの Mixture-of-Experts (MoE) 構造を採用した、reasoning型のオープンソースモデルです。数学、コーディング、論理推論などの各種タスクにおいて、OpenAI の o1 に匹敵する性能を発揮します。このモデルは、従来の先端モデルと比較してはるかに低コストで開発されていますが、推論処理の計算コストは依然として高く、広範な提供や大規模展開が難しい状況にありました。
  しかし SambaCloud により、この状況が一変します。世界最速レベルの DeepSeek-R1 実行環境を提供することで、その強力な機能をこれまでになく手軽にご利用いただけるようになりました。

DeepSeek-R1 の API アクセスやレート制限の拡張をご希望の方は、こちらのフォームよりウェイトリストにご登録ください。

詳細は対応モデルのページをご覧ください。

2025年2月4日

Tülu 3 405B を SambaCloud に追加しました。
本モデルは、DeepSeek-V3 を上回る性能を持つオープンソースモデルで、現在 SambaCloud 上でご利用いただけます。

Llama-3.1-Tulu-3-405B
- Tülu 3 405B は、Allen Institute for AI (AI2) によって開発された、DeepSeek-V3 を代替する初のオープンソースモデルです。Verifiable Rewards による強化学習 (RLVR) を用いてトレーニングされており、GPT-4o や DeepSeek-V3 といった先進的なモデルと同等以上の性能を発揮します。特に、安全性に関するベンチマークでは顕著な優位性を示しています。

2025年1月30日

DeepSeek-R1-Distill-Llama-70B が SambaCloud 上で利用可能になりました。
数学、コーディングなどの分野において、主要なクローズドソースモデルを凌駕する最先端の AI を体験いただけます。圧倒的な性能で、あらゆるワークロードを強化します。

DeepSeek-R1-Distill-Llama-70B
- DeepSeek-R1-Distill は、DeepSeek-R1 から生成されたサンプルを用いてファインチューニングされたモデルです。本モデルは Llama 3.3 70B を基盤としており、AIME、MATH-500、GPQA、LiveCodeBench といった複数のベンチマークにおいて、GPT-4o、o1-mini、Claude-3.5-Sonnet を含む主要なクローズドソースモデルを上回る性能を記録しました。数学的推論やコーディングタスクにおいて際立った成果を示しています。

2024年12月11日

Meta の最新モデル Llama 3.3 70B および、Alibaba Qwen チームが開発した最先端のreasoning型オープンソースモデル QwQ が、SambaCloud 上で利用可能になりました。

Llama 3.3 70B
- Meta による最新の Llama 3.3 70B モデルは、reasoning、数学的問題解決、一般知識の理解など、複数の領域において高い性能を発揮します。Llama 3.1 405B に匹敵するパフォーマンスを有し、ベンチマーク比較では OpenAI の GPT-4o や Google の Gemini Pro 1.5 といった商用モデルに近いスコアを記録しています。オープンソースモデルが、これらの商用モデルに急速に追いつき、あるいは凌駕しつつあることを示す代表的な事例のひとつです。
QwQ 32B Preview
- QwQ-32B-Preview は、Alibaba の Qwen チームによって開発された、reasoning能力を強化するための実験的な AI モデルです。32.5 億パラメータを備え、数学やプログラミングといった複雑なタスクにおいて優れた性能を発揮します。具体的なベンチマークスコアとしては、大学院レベルの質問応答タスクである GPQA で 65.2%、米国数学オリンピック予選に相当する AIME で 50.0%、MATH-500 で 90.6%、さらに LiveCodeBench で 50.0% を記録しており、高い分析力を示しています。一方で、プレビュー版であることから、言語の混在や推論ループ、常識の理解、そして細かい言語表現の処理といった点においては、今後の改善が期待される余地も残されています。

2024年12月5日

Qwen2.5 72B
- Qwen2.5-72B は 720 億パラメータの大規模言語モデルで、コーディング、数学、多言語理解に優れた性能を発揮します。18 兆トークン以上の大規模データセットで学習されており、最大 128k トークンのコンテキスト長と 8k トークン超の出力をサポートします。指示理解能力にも優れ、英語・中国語・フランス語・スペイン語など 29 以上の言語に対応しています。
Qwen2.5 Coder 32B
- Qwen2.5-Coder-32B は、コード生成に特化した 320 億パラメータのモデルで、ソースコードおよび合成データからなる 5.5 兆トークンでトレーニングされています。92 種類のプログラミング言語に対応し、コード生成・推論・デバッグにおいて優れた性能を発揮。HumanEval スコアは 92.7% を記録し、GPT-4o と同等のコーディング能力を有する、オープンソースの中でもトップクラスのコーディング支援モデルです。
Llama Guard 3 8B
- Llama Guard 3-8B は、Meta の Llama 3.1 をベースにファインチューニングされたモデルで、コンテンツの安全性分類に特化しています。LLM に対する入力 (プロンプト) や出力 (応答) の両方を評価可能で、安全性に問題がある場合はそのリスクカテゴリも特定します。この機能は、MLCommons が定めた 14 種類の危険性分類に準拠しています。

その他のアップデート 以下のモデルについて、最大シーケンス長の拡張が行われました。

Llama 3.2 1B：4k → 16k トークン
Llama 3.1 70B：64k → 128k トークン
Llama 3.1 405B：8k → 16k トークン

2024年10月29日

Llama 3.2 11B および 90B モデル
- Llama 3.2 モデルに新たに 11B および 90B バージョンが加わりました。これらのモデルはテキストと画像のマルチモーダル入力に対応しており、より多様なAIアプリケーションやユースケースに活用できます。
Function calling (関数呼び出し)
- Function calling API により、ユーザーの入力に応じてモデルがfunction callingを提案・選択できるようになり、柔軟なエージェント型ワークフローの構築が可能になります。
APIおよびPlaygroundにおけるマルチモーダル対応
- 推論API (OpenAI互換) およびPlaygroundを通じて、テキストと画像を組み合わせたマルチモーダルモデルとの対話がシームレスに行えます。
開発を加速する Python / Gradio コードサンプル
- 新たに提供された Python および Gradio のコードサンプルにより、SambaCloud 上でのアプリケーション開発とデプロイがより簡単かつ迅速になります。
ユーザー体験の向上
- テキストおよび画像入力の両方に対応した curl コマンドの使用例を含む「API 利用ガイド」を新たに提供し、迅速な導入を支援します。
- 最新のコードスニペットへのアクセス性を高め、必要な情報をより効率的に取得できるよう整理しました。
- Playground には新たに「Clear Chat」(チャットのクリア) 機能を追加し、実験や検証を円滑に行えるよう改善しています。
- UI コンポーネントにツールチップを追加するなど、操作性と視認性を高めるデザイン上の改善を実施しました。
AI スターターキットのアップデート
- Multimodal Retriever
  - チャート、図、画像の理解に対応。複雑なPDFや画像から視覚情報と言語情報を統合的に処理し、インサイトを抽出します。
- Llama-3.1-Instruct-o1
  - Llama-3.1-405B による高度なreasoningモデル。Hugging Face Spaces 上で提供されており、論理的思考能力が強化されています。

2024年10月10日

Llama 3.1 8B モデル
- 最大シーケンス長が 8k から 16k に拡張されました。
Llama 3.1 70B モデル
- 最大シーケンス長が 8k から 64k に拡張されました。
- シーケンス長に応じた自動ルーティングの導入
  - シーケンス長に応じてモデルが自動で選択されるようになりました。これにより、モデル名において、従来のように Meta-Llama-3.1-70B-Instruct-8k などのシーケンス長を明示的に指定する必要はありません。既存の方法も後方互換のため引き続き使用可能ですが、新方式への移行を推奨します。
- Llama 3.2 1B および 3B モデルの全体的な推論性能が向上しました。

2024年10月1日

Llama 3.2 1B および 3B モデルをリリースしました。
すべての利用プランにおいて、最速の推論スピードでご利用いただけます。

2024年9月10日

SambaCloud ポータル、API、コミュニティをリリースしました。
Llama 3.1 8B、70B、405B モデルに、フル精度かつ GPU 比で最大10倍の高速推論でアクセス可能です。
無料プランとエンタープライズ (有料) プランの 2 種類の料金体系で提供を開始しました。

リリースノート

​2025年5月28日

​2025年5月6日

​2025年4月29日

​2025年4月18日

​2025年4月16日

​2025年4月14日

​2025年4月9日

​2025年4月7日

​2025年3月27日

​2025年3月20日

​2025年3月18日

​2025年3月13日

​2025年3月6日

​2025年3月5日

​2025年2月25日

​2025年2月21日

​2025年2月13日

​2025年2月4日

​2025年1月30日

​2024年12月11日

​2024年12月5日

​2024年10月29日

​2024年10月10日

​2024年10月1日

​2024年9月10日

2025年5月28日

2025年5月6日

2025年4月29日

2025年4月18日

2025年4月16日

2025年4月14日

2025年4月9日

2025年4月7日

2025年3月27日

2025年3月20日

2025年3月18日

2025年3月13日

2025年3月6日

2025年3月5日

2025年2月25日

2025年2月21日

2025年2月13日

2025年2月4日

2025年1月30日

2024年12月11日

2024年12月5日

2024年10月29日

2024年10月10日

2024年10月1日

2024年9月10日