• Skip to main content
  • Skip to primary sidebar

bloggggggggggggggg

// コードと趣味の境界線上

GPU選びの指針 — VRAMは正義、でもお金は有限

ローカルLLMを始めると、すぐにGPUの壁にぶつかる。「どのGPUを買えばいいの?」——この質問にはっきり答える。予算が許すならVRAM最大のを買え。以上。

…で終わらせるわけにもいかないから、もう少し真面目に解説する。LLMの推論で一番重要なのはVRAM(ビデオメモリ)の容量だ。モデルのサイズがVRAMを超えると、どうあがいてもまともに動かない。

VRAM容量と動かせるモデルの目安:

GPU VRAM 動くモデル(Q4_K_M)
RTX 3060 12GB 12GB Llama 3 8B, Mistral 7B, Gemma 7B(快適)
RTX 3090(中古) 24GB Llama 3 8B(爆速), Llama 3 70B(Q4でギリギリ), Mixtral 8x7B
RTX 4090 24GB 3090と同容量だが2倍速い。プロンプト処理が段違い
RTX 6000 Ada 48GB Llama 3 70B(Q8), 大規模RAG, 複数モデル同時
Mac Studio M2 Ultra 192GB(共用) Llama 3 405Bも動く!速度は遅いけど

僕のオススメ戦略:

  1. エントリー層 — RTX 3060 12GB(中古4〜5万円)。8Bクラスのモデルをサクサク動かせる。最初の一台に最適。
  2. スイートスポット — RTX 3090中古(10万円前後)。24GB VRAMで70Bクラスも量子化すれば動く。コスパ最強。
  3. 本気の人 — RTX 4090(25万円〜)。処理速度が段違い。大規模なRAGや連続推論が必要ならこれ。
  4. 変態枠 — Mac Studio M2 Ultra。192GBメモリで405Bモデルも動くけど、1秒に2〜3トークン。会話には厳しい。

VRAM以外で気にするべきはメモリ帯域幅。3090は936GB/s、4090は1008GB/s。この差がプロンプト処理速度(TTFT = Time To First Token)に直結する。

中古GPUを買うときの注意。マイニング落ちは避けたい。ファンがヘタってる可能性がある。24時間酷使されたGPUは寿命が短い。ちゃんとした保証のある中古店を選ぼう。

← LM Studioの使い方 — GUIでローカルLLMを楽しむ
量子化の世界 — Q4_K_Mとか何なのよ →

Primary Sidebar

最近の投稿

  • インフラエンジニアのキャリアパス — 手動運用からSREへ
  • 障害対応の心得 — 本番で焦らないために
  • 監視設計の基本 — 何をどう見るべきか
  • ログ管理 — ELKスタック入門
  • HTTPSと証明書管理 — Let’s Encryptの恩恵を最大限に

アーカイブ

  • May 2026

カテゴリー

  • AI
  • Linux
  • OS
  • Windows
  • インフラ・DevOps
  • おうちサーバー
  • サーバー・インフラ
  • ツール・環境
  • プログラミング
  • 未分類
  • 開発哲学

最近のコメント

No comments to show.

© 横山鉄工所 & まめたろう重工