特徴
- LLM向けの標準的な学術ベンチマークを60種以上サポート (数百のサブタスクおよびバリアントに対応)
- 商用APIとの互換性あり
- ローカルモデルやカスタムベンチマークもサポート
- 論文間での再現性と比較可能性を担保するため、公開されているプロンプトを使用
- 独自のプロンプトや評価指標の簡単な統合が可能
セットアップ手順
- SambaCloud のアカウントを作成し、APIキーを取得します。
-
lm-evaluation-harness
リポジトリをクローンします。 -
仮想環境を作成し、アクティベートします。
-
依存ライブラリをインストールします。
選択するベンチマークやタスクによっては、追加のPythonパッケージが必要となる場合があります。ライブラリに関するエラーが発生した場合は、個別にインストールしてください。
利用例
この評価はローカル環境やノートブック環境で実行できます。- 評価対象ベンチマーク: GSM8k (小学校レベルの算数問題)
- モデル提供元: SambaCloud