• Skip to main content
  • Skip to primary sidebar

bloggggggggggggggg

// コードと趣味の境界線上

vLLMで高速推論サーバーを立てる — 本気のローカルAPI

Ollamaで十分と思ってた。でも、ある日1000件の文章をバッチ処理する必要があって、Ollamaの速度に限界を感じた。そこで出会ったのがvLLM。これ、次元が違う。

vLLMはカリフォルニア大学バークレー校発の高速LLM推論エンジン。最大の特徴はPagedAttentionというメモリ管理技術で、KVキャッシュの無駄を徹底的に排除する。結果、Ollamaの2〜3倍のスループットが出る。

vLLMのインストールと起動:

# インストール
pip install vllm

# APIサーバー起動(OpenAI互換!)
vllm serve meta-llama/Llama-3-8B-Instruct 
  --host 0.0.0.0 
  --port 8000 
  --max-model-len 8192

起動したら、OpenAIのPythonライブラリでそのままアクセスできる:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")
response = client.chat.completions.create(
  model="meta-llama/Llama-3-8B-Instruct",
  messages=[{"role": "user", "content": "こんにちは"}]
)

vLLMが速い理由:

  • PagedAttention — KVキャッシュを固定サイズの「ページ」に分割して管理。必要なときだけ確保・解放するから、VRAMが無駄にならない。これにより同じVRAMでもより多くのリクエストを同時処理できる。
  • 連続バッチ処理 — リクエストをその場でバッチに追加する。一つのリクエストが終わるのを待たずに次の推論を始められる。
  • 最適化されたCUDAカーネル — llama.cppよりGPUの使い方が上手い。特にバッチ処理で差が出る。

vLLMの注意点。起動に時間がかかる(モデルを全部VRAMにロードするから2〜3分)。あとメモリ使用量がOllamaより多い(速度とのトレードオフ)。個人の普段使いにはオーバースペックだけど、本格的なサービス運用なら必須級。

参考:vLLM GitHub

← ローカルLLMのベンチマークを取る — 数字で見る性能差
複数GPUで巨大モデルを動かす — 70Bの壁を越えて →

Primary Sidebar

最近の投稿

  • インフラエンジニアのキャリアパス — 手動運用からSREへ
  • 障害対応の心得 — 本番で焦らないために
  • 監視設計の基本 — 何をどう見るべきか
  • ログ管理 — ELKスタック入門
  • HTTPSと証明書管理 — Let’s Encryptの恩恵を最大限に

アーカイブ

  • May 2026

カテゴリー

  • AI
  • Linux
  • OS
  • Windows
  • インフラ・DevOps
  • おうちサーバー
  • サーバー・インフラ
  • ツール・環境
  • プログラミング
  • 未分類
  • 開発哲学

最近のコメント

No comments to show.

© 横山鉄工所 & まめたろう重工