ローカルLLMのベンチマークを取る — 数字で見る性能差

「このモデル賢い！」「いやこっちの方が…」——ローカルLLMの評価を感覚だけで語ってると、いつまでも決着がつかない。数字で比較しよう。客観的なベンチマークの取り方と、主要モデルの実測値を紹介する。

ベンチマークには色々あるけど、僕が重視するのは推論速度（tok/s）と出力品質（ベンチマークスコア）。この2軸で評価すればだいたい正しい。

主要ベンチマークの種類：

MMLU（大規模マルチタスク言語理解）— 57分野の選択問題。知識の広さと深さを測る。一番ポピュラー。
HumanEval — コード生成能力。関数の仕様からコードを書かせて、テストを通るかで評価。
GSM8K — 小学校レベルの算数文章題。論理推論能力の指標。
MT-Bench — GPT-4に判定させる方式。会話の質を総合評価。

RTX 3090 24GBでの推論速度（Llama 3 8B Q5_K_M @ 8192コンテキスト）：

llama.cpp：85 tok/s（TTFT 0.3秒）
Ollama：82 tok/s
LM Studio：80 tok/s
vLLM：150 tok/s（連続リクエスト時。バッチ処理が強み）

vLLMは速いけどセットアップが面倒。個人利用ならOllamaで十分。バッチ処理や高負荷APIサーバーならvLLMが本命。

ベンチマークを取る時は必ず同じプロンプト、同じ量子化レベル、同じコンテキスト長で比較すること。条件が違うと意味がない。

参考：Open LLM Leaderboard