2025年5月28日
SambaCloud が AWS Marketplaceにて SaaS 提供を開始しました。 ユーザーは自身の AWS アカウントを用いてサブスクリプション登録ができ、AWS PrivateLink を介して安全かつ高速、スケーラブルな接続を実現します。Llama 4、DeepSeek、Whisper といったトップレベルのオープンソースモデルに、プライベートかつリアルタイムでアクセス可能です。SambaNova 独自の Reconfigurable Dataflow Unit (RDU( により、GPUと比較して最大10倍の高速推論が可能となり、リアルタイムAIアプリケーションに最適です。 主な特徴- AWS Marketplace 経由で提供:AWSアカウントでサブスク登録が可能。請求もAWS経由で一元管理。
- PrivateLink 対応:AWS VPCとSambaCloud間をパブリックインターネットを介さず、低レイテンシかつ安全に接続。
- 迅速に利用をスタート:Llama 4、DeepSeek-R1 671B、Whisper などのモデルで数分以内に推論を開始可能。
- 高性能な推論基盤:SambaNova独自のRDUアーキテクチャにより、GPUと比較して最大10倍の推論速度を実現。
- プライバシー設計を最優先:SambaNovaはお客様のデータを一切保存せず、データの完全な管理権限は常にユーザーにあります。
- ファインチューニング済みモデルに対応:カスタムモデルをコード変更なしでそのままデプロイ可能です。
2025年5月6日
DeepSeek-V3-0324 が Function Calling に対応しました。このアップデートにより、モデルの出力から外部関数を直接呼び出すことが可能になり、より柔軟かつプログラマブルなインタラクションが実現します。
詳しくは Function Calling のページ をご覧ください。
2025年4月29日
Qwen3-32B を Preview モデルとして SambaCloud に追加しました。Qwen3-32B は大規模な多言語対応LLMであり、Qwen3シリーズの一部として、質問応答、要約、推論、コーディングなど、汎用的な言語タスク全般において高い性能を発揮します。
2025年4月18日
Whisper-Large-V3 を新たに追加しました。Whisper-Large-V3 は、OpenAI が開発した最新の大規模音声認識 (ASR) モデルです。従来よりも高精度な文字起こし、多言語対応の強化、そしてノイズの多い音声環境への高い耐性を備えています。
2025年4月16日
Llama-4-Maverick-17B-128E-Instruct が画像入力に対応しました。この強化版モデルでは、テキストプロンプトに加えて最大2枚の画像をコンテキストとして与えることが可能になりました。
本モデルは Playground および API を通じてすべてのユーザーが利用可能です。
2025年4月14日
SambaCloud におけるモデル提供の最適化および強化の一環として、以下のモデルは廃止予定となりました。- Llama-3.1-Swallow-70B-Instruct-v0.3
- Llama-3.1-Tulu-3-405B
- Llama-3.2-11B-Vision-Instruct
- Llama-3.2-90B-Vision-Instruct
- Meta-Llama-3.1-70B-Instruct
- Qwen2.5-72B-Instruct
- Qwen2.5-Coder-32B-Instruct
代替モデルの案内や移行に関する詳細は、廃止予定モデル をご覧ください。
2025年4月9日
Llama 4 ファミリーの新モデル「Maverick」が SambaCloud に登場しました。このモデルは 4000 億パラメータ規模の Mixture-of-Experts (MoE) アーキテクチャを採用し、17 億のアクティブパラメータと 128 のエキスパートを備えています。Gemma 3、Gemini 2.0 Flash、Mistral 3.1 といった最新モデルを凌駕するパフォーマンスを各種ベンチマークにおいて実現しています。
- Llama-4-Maverick-17B-128E-Instruct
2025年4月7日
Llama 4系の最新モデルである Llama 4 Scout が、SambaCloud 上で利用可能になりました。このモデルは、1090 億パラメータ規模の Mixture-of-Experts (MoE) 構造を採用し、17 億のアクティブパラメータと 16 のエキスパートで構成されています。Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1 といった最新モデルと比較しても、各種ベンチマークにおいて競争力のある性能を発揮します。
- Llama-4-Scout-17B-16E-Instruct
2025年3月27日
DeepSeek V3-0324 を SambaCloud に追加しました。DeepSeek V3-0324 は、従来のnon-reasoning系のプロプライエタリモデルを上回る、初のオープンソースnon-reasoningモデルです。さらに、reasoning性能の大幅な向上に加え、フロントエンド開発への対応力やツールの活用能力にも優れています。
- DeepSeek-V3-0324
2025年3月20日
- E5-Mistral-7B-Instruct
2025年3月18日
- DeepSeek-R1
- DeepSeek-R1 は Preview モデルから Production モデルへ移行し、現在は Playground および API を通じて利用可能です。
- Production モデルとして提供されることで、最大コンテキスト長が 16kトークンに拡張され、すべてのユーザーが利用できます。
- モデル一覧エンドポイント
- 現在 SambaCloud 上で利用可能なモデル情報を取得できる モデル一覧エンドポイント を新たに追加しました。
2025年3月13日
- DeepSeek-R1-Distill-Llama-70B モデルを更新しました。
- 本モデルの最大コンテキスト長が 128kトークンに拡張され、Playground および API を通じて利用可能になりました。
2025年3月6日
- QwQ-32B モデルを追加しました。
- QwQ-32B は、Alibaba の Qwen チームによって公開された最先端のreasoningモデルです。
アクティブパラメータ数が 37B に留まるにも関わらず、671B パラメータの DeepSeek-R1 に匹敵する性能を発揮します。高度な言語理解力と創造的reasoning能力に加え、QwQ-32B はエージェント機能も強化されており、批判的思考、外部ツールの活用、動的な環境フィードバックに基づく推論の適応といった高度な挙動にも対応しています。
- QwQ-32B は、Alibaba の Qwen チームによって公開された最先端のreasoningモデルです。
2025年3月5日
- Llama-3.1-Swallow-8B-Instruct-v0.3 モデルを追加しました。
- Llama-3.1-Swallow-70B-Instruct-v0.3 モデルを追加しました。
2025年2月25日
- Llama-3.3-70B
- Llama-3.3-70B の最大コンテキスト長が 128k トークンに拡張されました。本モデルは Production モデルとして、Playground および API を通じて利用可能です。
2025年2月21日
- DeepSeek-R1
- DeepSeek-R1 の最大コンテキスト長が 8k トークンに拡張されました。本モデルは Preview モデルとして、Playground を通じて利用可能です。
2025年2月13日
最先端のオープンソースモデル DeepSeek-R1 が SambaCloud で利用可能になりました。DeepSeek-R1 は、OpenAI の o1 に匹敵する性能を持ち、世界的に注目を集めている革新的なモデルです。現在、非常に高い需要があるため、Preview フェーズではアクセスに制限がありますが、SambaCloud 上では圧倒的な高速推論を体験いただけます。
これはまだ始まりにすぎません。さらなる進化にもぜひご期待ください!
- DeepSeek-R1
-
DeepSeek-R1 は、6710 億パラメータの Mixture-of-Experts (MoE) 構造を採用した、reasoning型のオープンソースモデルです。数学、コーディング、論理推論などの各種タスクにおいて、OpenAI の o1 に匹敵する性能を発揮します。
このモデルは、従来の先端モデルと比較してはるかに低コストで開発されていますが、推論処理の計算コストは依然として高く、広範な提供や大規模展開が難しい状況にありました。
しかし SambaCloud により、この状況が一変します。世界最速レベルの DeepSeek-R1 実行環境を提供することで、その強力な機能をこれまでになく手軽にご利用いただけるようになりました。
-
DeepSeek-R1 は、6710 億パラメータの Mixture-of-Experts (MoE) 構造を採用した、reasoning型のオープンソースモデルです。数学、コーディング、論理推論などの各種タスクにおいて、OpenAI の o1 に匹敵する性能を発揮します。
このモデルは、従来の先端モデルと比較してはるかに低コストで開発されていますが、推論処理の計算コストは依然として高く、広範な提供や大規模展開が難しい状況にありました。
DeepSeek-R1 の API アクセスやレート制限の拡張をご希望の方は、こちらのフォーム よりウェイトリストにご登録ください。
2025年2月4日
Tülu 3 405B を SambaCloud に追加しました。本モデルは、DeepSeek-V3 を上回る性能を持つオープンソースモデルで、現在 SambaCloud 上でご利用いただけます。
- Llama-3.1-Tulu-3-405B
- Tülu 3 405B は、Allen Institute for AI (AI2) によって開発された、DeepSeek-V3 を代替する初のオープンソースモデルです。Verifiable Rewards による強化学習 (RLVR) を用いてトレーニングされており、GPT-4o や DeepSeek-V3 といった先進的なモデルと同等以上の性能を発揮します。特に、安全性に関するベンチマークでは顕著な優位性を示しています。
2025年1月30日
DeepSeek-R1-Distill-Llama-70B が SambaCloud 上で利用可能になりました。数学、コーディングなどの分野において、主要なクローズドソースモデルを凌駕する最先端の AI を体験いただけます。圧倒的な性能で、あらゆるワークロードを強化します。
- DeepSeek-R1-Distill-Llama-70B
- DeepSeek-R1-Distill は、DeepSeek-R1 から生成されたサンプルを用いてファインチューニングされたモデルです。本モデルは Llama 3.3 70B を基盤としており、AIME、MATH-500、GPQA、LiveCodeBench といった複数のベンチマークにおいて、GPT-4o、o1-mini、Claude-3.5-Sonnet を含む主要なクローズドソースモデルを上回る性能を記録しました。数学的推論やコーディングタスクにおいて際立った成果を示しています。
2024年12月11日
Meta の最新モデル Llama 3.3 70B および、Alibaba Qwen チームが開発した最先端のreasoning型オープンソースモデル QwQ が、SambaCloud 上で利用可能になりました。- Llama 3.3 70B
- Meta による最新の Llama 3.3 70B モデルは、reasoning、数学的問題解決、一般知識の理解など、複数の領域において高い性能を発揮します。Llama 3.1 405B に匹敵するパフォーマンスを有し、ベンチマーク比較では OpenAI の GPT-4o や Google の Gemini Pro 1.5 といった商用モデルに近いスコアを記録しています。オープンソースモデルが、これらの商用モデルに急速に追いつき、あるいは凌駕しつつあることを示す代表的な事例のひとつです。
- QwQ 32B Preview
- QwQ-32B-Preview は、Alibaba の Qwen チームによって開発された、reasoning能力を強化するための実験的な AI モデルです。32.5 億パラメータを備え、数学やプログラミングといった複雑なタスクにおいて優れた性能を発揮します。具体的なベンチマークスコアとしては、大学院レベルの質問応答タスクである GPQA で 65.2%、米国数学オリンピック予選に相当する AIME で 50.0%、MATH-500 で 90.6%、さらに LiveCodeBench で 50.0% を記録しており、高い分析力を示しています。一方で、プレビュー版であることから、言語の混在や推論ループ、常識の理解、そして細かい言語表現の処理といった点においては、今後の改善が期待される余地も残されています。
2024年12月5日
- Qwen2.5 72B
- Qwen2.5-72B は 720 億パラメータの大規模言語モデルで、コーディング、数学、多言語理解に優れた性能を発揮します。18 兆トークン以上の大規模データセットで学習されており、最大 128k トークンのコンテキスト長と 8k トークン超の出力をサポートします。指示理解能力にも優れ、英語・中国語・フランス語・スペイン語など 29 以上の言語に対応しています。
- Qwen2.5 Coder 32B
- Qwen2.5-Coder-32B は、コード生成に特化した 320 億パラメータのモデルで、ソースコードおよび合成データからなる 5.5 兆トークンでトレーニングされています。92 種類のプログラミング言語に対応し、コード生成・推論・デバッグにおいて優れた性能を発揮。HumanEval スコアは 92.7% を記録し、GPT-4o と同等のコーディング能力を有する、オープンソースの中でもトップクラスのコーディング支援モデルです。
- Llama Guard 3 8B
- Llama Guard 3-8B は、Meta の Llama 3.1 をベースにファインチューニングされたモデルで、コンテンツの安全性分類に特化しています。LLM に対する入力 (プロンプト) や出力 (応答) の両方を評価可能で、安全性に問題がある場合はそのリスクカテゴリも特定します。この機能は、MLCommons が定めた 14 種類の危険性分類に準拠しています。
- Llama 3.2 1B:4k → 16k トークン
- Llama 3.1 70B:64k → 128k トークン
- Llama 3.1 405B:8k → 16k トークン
2024年10月29日
- Llama 3.2 11B および 90B モデル
- Llama 3.2 モデルに新たに 11B および 90B バージョンが加わりました。これらのモデルはテキストと画像のマルチモーダル入力に対応しており、より多様なAIアプリケーションやユースケースに活用できます。
- Function calling (関数呼び出し)
- Function calling API により、ユーザーの入力に応じてモデルがfunction callingを提案・選択できるようになり、柔軟なエージェント型ワークフローの構築が可能になります。
- APIおよびPlaygroundにおけるマルチモーダル対応
- 推論API (OpenAI互換) およびPlaygroundを通じて、テキストと画像を組み合わせたマルチモーダルモデルとの対話がシームレスに行えます。
- 開発を加速する Python / Gradio コードサンプル
- 新たに提供された Python および Gradio のコードサンプルにより、SambaCloud 上でのアプリケーション開発とデプロイがより簡単かつ迅速になります。
- ユーザー体験の向上
- テキストおよび画像入力の両方に対応した
curl
コマンドの使用例を含む「API 利用ガイド」を新たに提供し、迅速な導入を支援します。 - 最新のコードスニペットへのアクセス性を高め、必要な情報をより効率的に取得できるよう整理しました。
- Playground には新たに「Clear Chat」(チャットのクリア) 機能を追加し、実験や検証を円滑に行えるよう改善しています。
- UI コンポーネントにツールチップを追加するなど、操作性と視認性を高めるデザイン上の改善を実施しました。
- テキストおよび画像入力の両方に対応した
- AI スターターキット のアップデート
- Multimodal Retriever
- チャート、図、画像の理解に対応。複雑なPDFや画像から視覚情報と言語情報を統合的に処理し、インサイトを抽出します。
- Llama-3.1-Instruct-o1
- Llama-3.1-405B による高度なreasoningモデル。Hugging Face Spaces 上で提供されており、論理的思考能力が強化されています。
- Multimodal Retriever
2024年10月10日
- Llama 3.1 8B モデル
- 最大シーケンス長が 8k から 16k に拡張されました。
- Llama 3.1 70B モデル
- 最大シーケンス長が 8k から 64k に拡張されました。
- シーケンス長に応じた自動ルーティングの導入
- シーケンス長に応じてモデルが自動で選択されるようになりました。これにより、モデル名において、従来のように
Meta-Llama-3.1-70B-Instruct-8k
などのシーケンス長を明示的に指定する必要はありません。既存の方法も後方互換のため引き続き使用可能ですが、新方式への移行を推奨します。
- シーケンス長に応じてモデルが自動で選択されるようになりました。これにより、モデル名において、従来のように
- Llama 3.2 1B および 3B モデルの全体的な推論性能が向上しました。
2024年10月1日
- Llama 3.2 1B および 3B モデルをリリースしました。
- すべての利用プランにおいて、最速の推論スピードでご利用いただけます。
2024年9月10日
- SambaCloud ポータル、API、コミュニティをリリースしました。
- Llama 3.1 8B、70B、405B モデルに、フル精度かつ GPU 比で最大10倍の高速推論でアクセス可能です。
- 無料プランとエンタープライズ (有料) プランの 2 種類の料金体系で提供を開始しました。