「このモデル賢い!」「いやこっちの方が…」——ローカルLLMの評価を感覚だけで語ってると、いつまでも決着がつかない。数字で比較しよう。客観的なベンチマークの取り方と、主要モデルの実測値を紹介する。
ベンチマークには色々あるけど、僕が重視するのは推論速度(tok/s)と出力品質(ベンチマークスコア)。この2軸で評価すればだいたい正しい。
主要ベンチマークの種類:
- MMLU(大規模マルチタスク言語理解)— 57分野の選択問題。知識の広さと深さを測る。一番ポピュラー。
- HumanEval — コード生成能力。関数の仕様からコードを書かせて、テストを通るかで評価。
- GSM8K — 小学校レベルの算数文章題。論理推論能力の指標。
- MT-Bench — GPT-4に判定させる方式。会話の質を総合評価。
RTX 3090 24GBでの推論速度(Llama 3 8B Q5_K_M @ 8192コンテキスト):
- llama.cpp:85 tok/s(TTFT 0.3秒)
- Ollama:82 tok/s
- LM Studio:80 tok/s
- vLLM:150 tok/s(連続リクエスト時。バッチ処理が強み)
vLLMは速いけどセットアップが面倒。個人利用ならOllamaで十分。バッチ処理や高負荷APIサーバーならvLLMが本命。
ベンチマークを取る時は必ず同じプロンプト、同じ量子化レベル、同じコンテキスト長で比較すること。条件が違うと意味がない。