• Skip to main content
  • Skip to primary sidebar

bloggggggggggggggg

// コードと趣味の境界線上

GGUFフォーマットを理解する — なぜファイル形式が大事なのか

ローカルLLMの世界に入ると、必ず出会うのがGGUFファイル。`.gguf` っていう拡張子。「ただのモデルファイルでしょ?」って思ってたら、実はかなり奥深い仕組みだった。

GGUF(GPT-Generated Unified Format)は、llama.cppのために作られたモデルファイル形式。GGMLの後継で、2023年8月に登場した。それまでのPyTorchの`.bin`や`.safetensors`と違って、モデルの重みと設定を1ファイルにまとめられる。

GGUFのすごいところ:

  • 自己完結型 — 1つのファイルに、モデルの重み、トークナイザー、設定(コンテキスト長、語彙サイズなど)が全部入ってる。ファイル一つ渡せば動く。
  • 柔軟な量子化 — 同じモデルでも、Q2_KからQ8_0まで様々な量子化レベルで保存できる。用途に合わせてサイズと精度のバランスを選べる。
  • 効率的な読み込み — メモリマップドI/Oで、モデルの必要な部分だけを必要なときに読み込む。起動が速い。
  • 前方互換性 — 新しいバージョンのllama.cppでも古いGGUFを読み込める設計。

ファイル名から読み取れる情報。例えば `llama-3-8b-instruct.Q4_K_M.gguf`:

  • `llama-3-8b-instruct` → モデル名
  • `Q4_K_M` → 量子化方式。Q4は4ビット、KはK-quant方式、Mはミディアムサイズ。
  • `.gguf` → フォーマット

量子化の選び方(Llama 3 8Bの場合):

  • Q8_0(8.5GB):ほぼ劣化なし。メモリに余裕があればこれ。
  • Q6_K(6.5GB):わずかな劣化。通常使用のベストバランス。
  • Q5_K_M(5.7GB):少し劣化するけど気にならない。僕の常用。
  • Q4_K_M(4.9GB):明確に劣化を感じるけど、メモリ制約が厳しいなら。
  • Q2_K(3.2GB):かなり落ちる。どうしても動かしたいときの最終手段。

HuggingFaceでGGUFを探すときは、TheBloke氏(現在は他のコントリビューター多数)のリポジトリを見るのが定番。

参考:GGUF仕様

← llama.cppの魔法 — CPUだけでLLMを動かす技術
LM Studioの使い方 — GUIでローカルLLMを楽しむ →

Primary Sidebar

最近の投稿

  • インフラエンジニアのキャリアパス — 手動運用からSREへ
  • 障害対応の心得 — 本番で焦らないために
  • 監視設計の基本 — 何をどう見るべきか
  • ログ管理 — ELKスタック入門
  • HTTPSと証明書管理 — Let’s Encryptの恩恵を最大限に

アーカイブ

  • May 2026

カテゴリー

  • AI
  • Linux
  • OS
  • Windows
  • インフラ・DevOps
  • おうちサーバー
  • サーバー・インフラ
  • ツール・環境
  • プログラミング
  • 未分類
  • 開発哲学

最近のコメント

No comments to show.

© 横山鉄工所 & まめたろう重工