「ローカルLLMを動かす」って聞くと、CUDAのインストール、Pythonの仮想環境、モデルの変換…と面倒なイメージがある。でもOllamaを知った瞬間、そのイメージは粉々になった。
$ ollama run llama3
これだけでLlama 3 8Bが動く。pip installもgit cloneも不要。macOSでもLinuxでもWindowsでも同じコマンド。このシンプルさが革命的だった。
Ollamaのインストールは公式サイトからワンクリック。中身はllama.cppを内部で使っていて、モデルのダウンロード、量子化、推論まで全部自動でやってくれる。
よく使うコマンド:
# モデルをダウンロードして実行 ollama run llama3 # 利用可能なモデル一覧 ollama list # モデルの削除 ollama rm llama3 # APIサーバーとして起動(OpenAI互換!) ollama serve # Modelfileでカスタムモデル作成 ollama create mymodel -f Modelfile
一番驚いたのはOpenAI API互換エンドポイントがあること。`ollama serve` して `http://localhost:11434/v1/chat/completions` にリクエストを投げるだけで、OpenAIのライブラリがそのまま使える。コードを一行も変えずに、GPT-4からLlama 3に切り替えられる。
対応モデルも充実してる。Llama 3、Mistral、Gemma、Phi-3、Qwen、Command R、その他コミュニティモデル数百種類。HuggingFaceのGGUFファイルをインポートすれば何でも動く。
「とりあえずローカルLLM触ってみたい」って人には、Ollama以外の選択肢は考えられない。
参考:Ollama公式