GPU選びの指針 — VRAMは正義、でもお金は有限

ローカルLLMを始めると、すぐにGPUの壁にぶつかる。「どのGPUを買えばいいの？」——この質問にはっきり答える。予算が許すならVRAM最大のを買え。以上。

…で終わらせるわけにもいかないから、もう少し真面目に解説する。LLMの推論で一番重要なのはVRAM（ビデオメモリ）の容量だ。モデルのサイズがVRAMを超えると、どうあがいてもまともに動かない。

VRAM容量と動かせるモデルの目安：

GPU	VRAM	動くモデル（Q4_K_M）
RTX 3060 12GB	12GB	Llama 3 8B, Mistral 7B, Gemma 7B（快適）
RTX 3090（中古）	24GB	Llama 3 8B（爆速）, Llama 3 70B（Q4でギリギリ）, Mixtral 8x7B
RTX 4090	24GB	3090と同容量だが2倍速い。プロンプト処理が段違い
RTX 6000 Ada	48GB	Llama 3 70B（Q8）, 大規模RAG, 複数モデル同時
Mac Studio M2 Ultra	192GB（共用）	Llama 3 405Bも動く！速度は遅いけど

僕のオススメ戦略：

VRAM以外で気にするべきはメモリ帯域幅。3090は936GB/s、4090は1008GB/s。この差がプロンプト処理速度（TTFT = Time To First Token）に直結する。

中古GPUを買うときの注意。マイニング落ちは避けたい。ファンがヘタってる可能性がある。24時間酷使されたGPUは寿命が短い。ちゃんとした保証のある中古店を選ぼう。