Ollama入門 — 1コマンドでLlama 3を動かす衝撃

「ローカルLLMを動かす」って聞くと、CUDAのインストール、Pythonの仮想環境、モデルの変換…と面倒なイメージがある。でもOllamaを知った瞬間、そのイメージは粉々になった。

$ ollama run llama3

これだけでLlama 3 8Bが動く。pip installもgit cloneも不要。macOSでもLinuxでもWindowsでも同じコマンド。このシンプルさが革命的だった。

Ollamaのインストールは公式サイトからワンクリック。中身はllama.cppを内部で使っていて、モデルのダウンロード、量子化、推論まで全部自動でやってくれる。

よく使うコマンド：

# モデルをダウンロードして実行
ollama run llama3

# 利用可能なモデル一覧
ollama list

# モデルの削除
ollama rm llama3

# APIサーバーとして起動（OpenAI互換！）
ollama serve

# Modelfileでカスタムモデル作成
ollama create mymodel -f Modelfile

一番驚いたのはOpenAI API互換エンドポイントがあること。`ollama serve` して `http://localhost:11434/v1/chat/completions` にリクエストを投げるだけで、OpenAIのライブラリがそのまま使える。コードを一行も変えずに、GPT-4からLlama 3に切り替えられる。

対応モデルも充実してる。Llama 3、Mistral、Gemma、Phi-3、Qwen、Command R、その他コミュニティモデル数百種類。HuggingFaceのGGUFファイルをインポートすれば何でも動く。

「とりあえずローカルLLM触ってみたい」って人には、Ollama以外の選択肢は考えられない。

参考：Ollama公式