ローカルLLMを始めると、すぐにGPUの壁にぶつかる。「どのGPUを買えばいいの?」——この質問にはっきり答える。予算が許すならVRAM最大のを買え。以上。
…で終わらせるわけにもいかないから、もう少し真面目に解説する。LLMの推論で一番重要なのはVRAM(ビデオメモリ)の容量だ。モデルのサイズがVRAMを超えると、どうあがいてもまともに動かない。
VRAM容量と動かせるモデルの目安:
| GPU | VRAM | 動くモデル(Q4_K_M) |
|---|---|---|
| RTX 3060 12GB | 12GB | Llama 3 8B, Mistral 7B, Gemma 7B(快適) |
| RTX 3090(中古) | 24GB | Llama 3 8B(爆速), Llama 3 70B(Q4でギリギリ), Mixtral 8x7B |
| RTX 4090 | 24GB | 3090と同容量だが2倍速い。プロンプト処理が段違い |
| RTX 6000 Ada | 48GB | Llama 3 70B(Q8), 大規模RAG, 複数モデル同時 |
| Mac Studio M2 Ultra | 192GB(共用) | Llama 3 405Bも動く!速度は遅いけど |
僕のオススメ戦略:
- エントリー層 — RTX 3060 12GB(中古4〜5万円)。8Bクラスのモデルをサクサク動かせる。最初の一台に最適。
- スイートスポット — RTX 3090中古(10万円前後)。24GB VRAMで70Bクラスも量子化すれば動く。コスパ最強。
- 本気の人 — RTX 4090(25万円〜)。処理速度が段違い。大規模なRAGや連続推論が必要ならこれ。
- 変態枠 — Mac Studio M2 Ultra。192GBメモリで405Bモデルも動くけど、1秒に2〜3トークン。会話には厳しい。
VRAM以外で気にするべきはメモリ帯域幅。3090は936GB/s、4090は1008GB/s。この差がプロンプト処理速度(TTFT = Time To First Token)に直結する。
中古GPUを買うときの注意。マイニング落ちは避けたい。ファンがヘタってる可能性がある。24時間酷使されたGPUは寿命が短い。ちゃんとした保証のある中古店を選ぼう。