• Skip to main content
  • Skip to primary sidebar

bloggggggggggggggg

// コードと趣味の境界線上

複数GPUで巨大モデルを動かす — 70Bの壁を越えて

24GBのVRAMで70Bモデルを動かすにはQ4量子化が必須。でも、量子化すると明らかに賢さが落ちる。じゃあGPUを2枚刺せばいいじゃないか——その発想で、僕はRTX 3090を2枚挿しにした。

結果から言うと、物理的にもソフト的にも地獄だった。でも動いたときの感動は格別。Q8量子化でLlama 3 70Bがヌルヌル動く。ChatGPTに匹敵する回答がローカルマシンから返ってくる。

マルチGPUに必要なもの:

  • 物理スペース — GPU2枚が入るPCケース。普通のミドルタワーには入らない。フルタワー推奨。
  • 電源 — 3090 1枚で350W。2枚で700W。CPU等も考えると最低1200W。僕は1600Wにした。
  • 冷却 — GPU2枚がくっついてると上のカードが窒息する。ブロワーファン型GPUか水冷が現実的。
  • マザーボード — PCIe x16が2本以上あること。x8でも速度はあまり変わらない。
  • NVLinkブリッジ(オプション)— 3090はNVLink対応。2枚のメモリをプールして48GBとして扱える。VRAMの壁が消える。中古で$100くらい。

ソフトウェア面:

  • llama.cpp — マルチGPU対応済み。`-ngl 999` ですべてのレイヤーをGPUにオフロード。自動で分割してくれる。
  • vLLM — tensor_parallel_size=2で2枚使える。
  • Ollama — 現時点ではマルチGPU非対応。今後に期待。

実際の体感。RTX 3090×2でLlama 3 70B Q8_K_Mを動かすと:

  • 推論速度:20 tok/s(快適!)
  • VRAM使用:約44GB(各GPU 22GBずつ)
  • 消費電力:合計約650W(電気代が地味に痛い)

正直、個人でマルチGPUは「沼」だ。でも70B Q8が自宅で動く快感は何物にも代えがたい。やるなら覚悟して。

← vLLMで高速推論サーバーを立てる — 本気のローカルAPI
ローカルLLMの運用で学んだリアルな教訓 — 失敗談と成功パターン →

Primary Sidebar

最近の投稿

  • インフラエンジニアのキャリアパス — 手動運用からSREへ
  • 障害対応の心得 — 本番で焦らないために
  • 監視設計の基本 — 何をどう見るべきか
  • ログ管理 — ELKスタック入門
  • HTTPSと証明書管理 — Let’s Encryptの恩恵を最大限に

アーカイブ

  • May 2026

カテゴリー

  • AI
  • Linux
  • OS
  • Windows
  • インフラ・DevOps
  • おうちサーバー
  • サーバー・インフラ
  • ツール・環境
  • プログラミング
  • 未分類
  • 開発哲学

最近のコメント

No comments to show.

© 横山鉄工所 & まめたろう重工