• Skip to main content
  • Skip to primary sidebar

bloggggggggggggggg

// コードと趣味の境界線上

ローカルLLMのベンチマークを取る — 数字で見る性能差

「このモデル賢い!」「いやこっちの方が…」——ローカルLLMの評価を感覚だけで語ってると、いつまでも決着がつかない。数字で比較しよう。客観的なベンチマークの取り方と、主要モデルの実測値を紹介する。

ベンチマークには色々あるけど、僕が重視するのは推論速度(tok/s)と出力品質(ベンチマークスコア)。この2軸で評価すればだいたい正しい。

主要ベンチマークの種類:

  • MMLU(大規模マルチタスク言語理解)— 57分野の選択問題。知識の広さと深さを測る。一番ポピュラー。
  • HumanEval — コード生成能力。関数の仕様からコードを書かせて、テストを通るかで評価。
  • GSM8K — 小学校レベルの算数文章題。論理推論能力の指標。
  • MT-Bench — GPT-4に判定させる方式。会話の質を総合評価。

RTX 3090 24GBでの推論速度(Llama 3 8B Q5_K_M @ 8192コンテキスト):

  • llama.cpp:85 tok/s(TTFT 0.3秒)
  • Ollama:82 tok/s
  • LM Studio:80 tok/s
  • vLLM:150 tok/s(連続リクエスト時。バッチ処理が強み)

vLLMは速いけどセットアップが面倒。個人利用ならOllamaで十分。バッチ処理や高負荷APIサーバーならvLLMが本命。

ベンチマークを取る時は必ず同じプロンプト、同じ量子化レベル、同じコンテキスト長で比較すること。条件が違うと意味がない。

参考:Open LLM Leaderboard

← コンテキスト長の壁 — 128kって実際どこまで使えるのよ
vLLMで高速推論サーバーを立てる — 本気のローカルAPI →

Primary Sidebar

最近の投稿

  • インフラエンジニアのキャリアパス — 手動運用からSREへ
  • 障害対応の心得 — 本番で焦らないために
  • 監視設計の基本 — 何をどう見るべきか
  • ログ管理 — ELKスタック入門
  • HTTPSと証明書管理 — Let’s Encryptの恩恵を最大限に

アーカイブ

  • May 2026

カテゴリー

  • AI
  • Linux
  • OS
  • Windows
  • インフラ・DevOps
  • おうちサーバー
  • サーバー・インフラ
  • ツール・環境
  • プログラミング
  • 未分類
  • 開発哲学

最近のコメント

No comments to show.

© 横山鉄工所 & まめたろう重工