bloggggggggggggggg

Dockerでサービスをコンテナ化する — もう環境依存で悩まない

「俺のマシンでは動くのに……」——この言葉を永遠に封印してくれるのがDockerだ。コンテナ技術によって、アプリとその依存関係を全部パッケージ化できる。OSが違っても、ライブラリのバージョンが違っても、Dockerさえあれば動く。

おうちサーバーにDockerを入れてから、サービスの追加が爆速になった。Jellyfin、Nextcloud、Gitea、Vaultwarden——全部`docker compose up -d`で10分以内に起動する。昔みたいに依存関係で半日溶かすことがなくなった。

サーバー機を手に入れたら、次は何を動かすか。一つのOSに全部詰め込むのは危険だ。サービスが競合したり、アップデートで全部壊れたり。そこでProxmox VEの出番。サーバーを複数の仮想マシン（VM）に分割して、それぞれ独立して運用できる。

Proxmox VEはオープンソースの仮想化プラットフォーム。Debianベースで、Webブラウザから全操作ができる。VMware ESXiの無料版みたいなものだけど、機能制限がない。クラスタリングもバックアップも全部無料。

ラズパイに慣れたら、次は本物のサーバー機が欲しくなる。HP ProLiant、Dell PowerEdge、Lenovo ThinkSystem——企業がリースアップした中古品がヤフオクやeBayに溢れてる。2〜3万円でXeon搭載機が買える時代だ。

でも中古サーバーはめちゃくちゃうるさい。これ、冗談抜きで一番大事なポイント。起動時のファンの爆音は掃除機レベル。寝室やリビングに置くのは絶対にやめたほうがいい。遮音ラックに入れるか、物置や廊下に追いやる覚悟が必要。

おうちサーバーに興味はあるけど、いきなりデカいマシンを買うのはハードル高い。そんな人にぴったりなのがRaspberry Pi。5000〜8000円で買える名刺サイズのLinuxマシンだ。

僕の最初のおうちサーバーもラズパイ4（4GBモデル）だった。microSDにUbuntu Serverを焼いて、LANケーブルを刺して、電源を入れるだけ。30分後にはSSHでログインできる自分専用サーバーが完成してた。

「自宅にサーバー？」——最初は自分でもそう思った。でも実際に立ててみると、自由の味を知ってしまって後戻りできなくなった。クラウド全盛の時代だからこそ、あえて物理サーバーを持つ意味がある。

一番の理由はデータの所有権だ。写真もコードもメモも、全部自分のマシンの中。Googleフォトの無料枠が終了しても、iCloudの容量がパンクしても、関係ない。僕のデータは僕の家にある。この安心感、プライスレス。

ローカルLLM歴1年半。数えきれない失敗と数少ない成功から、リアルな教訓を共有する。華やかな技術ブログには書かれない泥臭い話ばかりだけど、多分これが一番役に立つ。

教訓1：8Bで十分なことが9割。最初は「70B！405B！」とデカいモデルに憧れる。でも実際のタスク（要約、翻訳、簡単な質疑）は8Bで十分。むしろ速さと省電力の方が価値が高い。用途を決めてからモデルを選べ。

24GBのVRAMで70Bモデルを動かすにはQ4量子化が必須。でも、量子化すると明らかに賢さが落ちる。じゃあGPUを2枚刺せばいいじゃないか——その発想で、僕はRTX 3090を2枚挿しにした。

結果から言うと、物理的にもソフト的にも地獄だった。でも動いたときの感動は格別。Q8量子化でLlama 3 70Bがヌルヌル動く。ChatGPTに匹敵する回答がローカルマシンから返ってくる。

Ollamaで十分と思ってた。でも、ある日1000件の文章をバッチ処理する必要があって、Ollamaの速度に限界を感じた。そこで出会ったのがvLLM。これ、次元が違う。

vLLMはカリフォルニア大学バークレー校発の高速LLM推論エンジン。最大の特徴はPagedAttentionというメモリ管理技術で、KVキャッシュの無駄を徹底的に排除する。結果、Ollamaの2〜3倍のスループットが出る。

「このモデル賢い！」「いやこっちの方が…」——ローカルLLMの評価を感覚だけで語ってると、いつまでも決着がつかない。数字で比較しよう。客観的なベンチマークの取り方と、主要モデルの実測値を紹介する。

ベンチマークには色々あるけど、僕が重視するのは推論速度（tok/s）と出力品質（ベンチマークスコア）。この2軸で評価すればだいたい正しい。

モデルのスペック表に「コンテキスト長：128kトークン」って書いてある。文庫本1冊分。理論上は「戦争と平和」を丸ごと入れて要約できるはず…なんだけど、現実はそう甘くない。

僕は色々なモデルでコンテキスト長の限界を検証してみた。結論から言うと、スペックの最大値より半分くらいが実用的な上限。64k超えたあたりから、モデルは明らかに文脈を見失い始める。