• Skip to main content
  • Skip to primary sidebar

bloggggggggggggggg

// コードと趣味の境界線上

量子化の世界 — Q4_K_Mとか何なのよ

ローカルLLMの世界に足を踏み入れると「Q4_K_M」「Q5_1」「IQ3_XXS」…呪文のような文字列が溢れてる。これ、全部量子化(Quantization)の方式を示すコードだ。

量子化ってのは簡単に言うと「モデルの重みを圧縮する」こと。32bitの数字を4bitや5bitに縮めて、メモリ使用量を減らす。当然精度は落ちるけど、その落ち方が量子化方式によって全然違う。

量子化方式の進化:

  • Q4_0 / Q4_1 — 最も基本的な4bit量子化。精度の落ちが大きめ。
  • Q5_0 / Q5_1 — 5bit量子化。4bitより明らかに精度が良い。サイズはやや増える。
  • Q8_0 — 8bit量子化。FP32とほぼ遜色ない精度。メモリに余裕があればこれ一択。
  • K-quant(Q4_K_Mなど) — 2023年後半に登場した改良版。重みの重要度に応じてビット数を変える。重要パラメータは多めに、重要でないパラメータは少なめに。賢い。
  • I-quant(IQ3_XXSなど) — 2024年登場。さらにアグレッシブに圧縮する方式。3bit台でも意外と使える。

K-quantの命名規則:

Q4_K_M
│  │ │
│  │ └─ サイズ: S=小, M=中, L=大
│  └─── K-quant方式
└────── ベースのビット数(4bit)

実際に試した感覚で言うと、Q5_K_Mがスイートスポット。Q4_K_Mとの差は体感できるけど、ファイルサイズの増加はそこそこ。Q8_0が理想だけどサイズが大きすぎてVRAMに収まらないことが多い。

あと盲点なのが量子化は非可逆ってこと。一度Q4にするとQ8の精度は戻らない。オリジナルのFP32モデルは必ず手元に残しておこう。

参考:HuggingFace Quantization Guide

← GPU選びの指針 — VRAMは正義、でもお金は有限
ローカルLLMでRAGを組む — 全部自分のマシンで完結させる →

Primary Sidebar

最近の投稿

  • インフラエンジニアのキャリアパス — 手動運用からSREへ
  • 障害対応の心得 — 本番で焦らないために
  • 監視設計の基本 — 何をどう見るべきか
  • ログ管理 — ELKスタック入門
  • HTTPSと証明書管理 — Let’s Encryptの恩恵を最大限に

アーカイブ

  • May 2026

カテゴリー

  • AI
  • Linux
  • OS
  • Windows
  • インフラ・DevOps
  • おうちサーバー
  • サーバー・インフラ
  • ツール・環境
  • プログラミング
  • 未分類
  • 開発哲学

最近のコメント

No comments to show.

© 横山鉄工所 & まめたろう重工