LM Evaluation Harness

Language Model Evaluation Harness は、EleutherAI によって開発された統一的な評価フレームワークで、生成系言語モデルを多様な評価タスクに基づいてテスト可能です。

特徴

lm-evaluation-harness リポジトリをクローンします。

git clone https://github.com/EleutherAI/lm-eval-harness.git
cd lm-evaluation-harness

依存ライブラリをインストールします。

pip install -e .
pip install -e ."[api]"
pip install tqdm

選択するベンチマークやタスクによっては、追加のPythonパッケージが必要となる場合があります。ライブラリに関するエラーが発生した場合は、個別にインストールしてください。

この評価はローカル環境やノートブック環境で実行できます。

この例では、標準的なプロンプト形式と評価指標を用いて、LLMの推論能力や計算能力を評価する方法を紹介しています。