• Skip to main content
  • Skip to primary sidebar

bloggggggggggggggg

// コードと趣味の境界線上

プロンプトテンプレート沼 — ChatML, Alpaca, Llama 3形式の違い

ローカルLLMで「なんだか回答がおかしい…」って時、原因の8割はプロンプトテンプレートの間違いだ。各モデルには決まった会話フォーマットがあって、これがずれるとモデルは迷子になる。

このフォーマットの違いを知らずに、3日間「なんでこのモデル、こんなにバカなんだ?」って悩んだことがある。原因はLlama 3モデルにAlpaca形式でプロンプトを投げてただけ。フォーマットを直した瞬間、モデルが突然賢くなった。

[Read more…] about プロンプトテンプレート沼 — ChatML, Alpaca, Llama 3形式の違い

Open WebUIでChatGPT風UIを自前で — ローカルLLMにリッチな顔をつける

OllamaでLLMは動いた。でもターミナルで会話するのは、やっぱり味気ない。ChatGPTみたいなリッチなWeb UIが欲しい——その願いを叶えるのがOpen WebUIだ。

Open WebUI(旧Ollama WebUI)は、Ollamaの上に被せるWebインターフェース。Docker一発で起動できて、見た目はマジでChatGPTそっくり。複数モデルの切り替え、会話履歴の保存、Markdownレンダリング、コードハイライト、全部入り。

[Read more…] about Open WebUIでChatGPT風UIを自前で — ローカルLLMにリッチな顔をつける

ローカルLLMでRAGを組む — 全部自分のマシンで完結させる

RAG(検索拡張生成)をAPIで組むのもいいけど、ローカルLLMがあれば完全オフライン・完全無料・完全プライベートなRAGシステムが作れる。自分の文書を全部食わせて、自分だけのAIアシスタントを作る——そんな夢みたいなことができる。

僕は日々のメモやブログ記事、読んだ論文のPDFを全部ローカルRAGに突っ込んでる。あとで「あの記事で何て書いたっけ?」ってなったとき、AIに聞くだけで一発で出てくる。Evernoteの検索より遥かに賢い。

[Read more…] about ローカルLLMでRAGを組む — 全部自分のマシンで完結させる

量子化の世界 — Q4_K_Mとか何なのよ

ローカルLLMの世界に足を踏み入れると「Q4_K_M」「Q5_1」「IQ3_XXS」…呪文のような文字列が溢れてる。これ、全部量子化(Quantization)の方式を示すコードだ。

量子化ってのは簡単に言うと「モデルの重みを圧縮する」こと。32bitの数字を4bitや5bitに縮めて、メモリ使用量を減らす。当然精度は落ちるけど、その落ち方が量子化方式によって全然違う。

[Read more…] about 量子化の世界 — Q4_K_Mとか何なのよ

GPU選びの指針 — VRAMは正義、でもお金は有限

ローカルLLMを始めると、すぐにGPUの壁にぶつかる。「どのGPUを買えばいいの?」——この質問にはっきり答える。予算が許すならVRAM最大のを買え。以上。

…で終わらせるわけにもいかないから、もう少し真面目に解説する。LLMの推論で一番重要なのはVRAM(ビデオメモリ)の容量だ。モデルのサイズがVRAMを超えると、どうあがいてもまともに動かない。

[Read more…] about GPU選びの指針 — VRAMは正義、でもお金は有限

LM Studioの使い方 — GUIでローカルLLMを楽しむ

「コマンドラインはちょっと…」って人に朗報。LM Studioなら、マウス操作だけでローカルLLMが使える。アプリをインストールして、モデルを選んでダウンロードして、チャット開始。Ollamaよりさらに簡単だ。

LM Studioはllama.cppをGUIでラップしたアプリ。Windows/Mac/Linux対応。見た目はChatGPTのデスクトップアプリに近くて、初見でも迷わない。しかも全部ローカル完結。ネットワーク不要。

[Read more…] about LM Studioの使い方 — GUIでローカルLLMを楽しむ

GGUFフォーマットを理解する — なぜファイル形式が大事なのか

ローカルLLMの世界に入ると、必ず出会うのがGGUFファイル。`.gguf` っていう拡張子。「ただのモデルファイルでしょ?」って思ってたら、実はかなり奥深い仕組みだった。

GGUF(GPT-Generated Unified Format)は、llama.cppのために作られたモデルファイル形式。GGMLの後継で、2023年8月に登場した。それまでのPyTorchの`.bin`や`.safetensors`と違って、モデルの重みと設定を1ファイルにまとめられる。

[Read more…] about GGUFフォーマットを理解する — なぜファイル形式が大事なのか

llama.cppの魔法 — CPUだけでLLMを動かす技術

「LLMを動かすにはGPUが必要」——これは半分本当で、半分ウソだ。確かに速さを求めるならGPUだけど、llama.cppを使えばCPUだけでLLMが動く。これがどれだけすごいか、初めて知ったときは椅子から転げ落ちそうになった。

llama.cppはGeorgi Gerganov氏が作ったC++のLLM推論エンジン。当初はLlamaモデルをMacで動かすためのツールだったけど、今ではほぼ全てのオープンソースLLMを、ほぼ全てのプラットフォームで動かせるようになってる。

[Read more…] about llama.cppの魔法 — CPUだけでLLMを動かす技術

Ollama入門 — 1コマンドでLlama 3を動かす衝撃

「ローカルLLMを動かす」って聞くと、CUDAのインストール、Pythonの仮想環境、モデルの変換…と面倒なイメージがある。でもOllamaを知った瞬間、そのイメージは粉々になった。

$ ollama run llama3

これだけでLlama 3 8Bが動く。pip installもgit cloneも不要。macOSでもLinuxでもWindowsでも同じコマンド。このシンプルさが革命的だった。

[Read more…] about Ollama入門 — 1コマンドでLlama 3を動かす衝撃

なぜローカルLLMなのか — プライバシーと自由の話

ChatGPTのAPIを使えば済む話なのに、わざわざGPU買ってローカルでLLMを動かす。傍から見たら完全に酔狂だ。でもローカルLLMには、クラウドAPIにはない圧倒的な自由がある。

最初にローカルLLMに手を出したきっかけは単純で、「APIのレート制限にイライラした」から。GPT-4 API、1分間に何回も叩くとすぐ制限がかかる。大量のテキスト処理をしたいときにこれがストレスで、ローカルLLMを試し始めた。

[Read more…] about なぜローカルLLMなのか — プライバシーと自由の話

« Previous Page
Next Page »

Primary Sidebar

最近の投稿

  • インフラエンジニアのキャリアパス — 手動運用からSREへ
  • 障害対応の心得 — 本番で焦らないために
  • 監視設計の基本 — 何をどう見るべきか
  • ログ管理 — ELKスタック入門
  • HTTPSと証明書管理 — Let’s Encryptの恩恵を最大限に

アーカイブ

  • May 2026

カテゴリー

  • AI
  • Linux
  • OS
  • Windows
  • インフラ・DevOps
  • おうちサーバー
  • サーバー・インフラ
  • ツール・環境
  • プログラミング
  • 未分類
  • 開発哲学

最近のコメント

No comments to show.

© 横山鉄工所 & まめたろう重工