Language Model Evaluation Harness は、EleutherAI によって開発された統一的な評価フレームワークで、生成系言語モデルを多様な評価タスクに基づいてテスト可能です。

特徴

  • LLM向けの標準的な学術ベンチマークを60種以上サポート (数百のサブタスクおよびバリアントに対応)
  • 商用APIとの互換性あり
  • ローカルモデルやカスタムベンチマークもサポート
  • 論文間での再現性と比較可能性を担保するため、公開されているプロンプトを使用
  • 独自のプロンプトや評価指標の簡単な統合が可能

セットアップ手順

  1. SambaCloud のアカウントを作成し、APIキーを取得します。
  2. lm-evaluation-harness リポジトリをクローンします。
    git clone https://github.com/EleutherAI/lm-eval-harness.git
    cd lm-evaluation-harness
    
  3. 仮想環境を作成し、アクティベートします。
    python -m venv .venv
    source .venv/bin/activate  
    
  4. 依存ライブラリをインストールします。
    pip install -e .
    pip install -e ."[api]"
    pip install tqdm
    
選択するベンチマークやタスクによっては、追加のPythonパッケージが必要となる場合があります。ライブラリに関するエラーが発生した場合は、個別にインストールしてください。

利用例

この評価はローカル環境やノートブック環境で実行できます。
  • 評価対象ベンチマーク: GSM8k (小学校レベルの算数問題)
  • モデル提供元: SambaCloud

リソース

この例では、標準的なプロンプト形式と評価指標を用いて、LLMの推論能力や計算能力を評価する方法を紹介しています。