• Skip to main content
  • Skip to primary sidebar

bloggggggggggggggg

// コードと趣味の境界線上

ファインチューニング入門 — モデルを自分好みに

LLMのデフォルトの回答って、どうしても「誰にでも優等生」になりがちだ。無難で、当たり障りなくて、ちょっと退屈。でも「僕の口調で」「この業界の専門用語で」「このフォーマットで」ってカスタマイズしたい。それがファインチューニングだ。

ファインチューニングは、学習済みのLLMに追加で小さな学習をさせること。数百〜数千件の質問回答ペアを用意するだけで、モデルの振る舞いを特定の方向にガラッと変えられる。フルスクラッチで学習させるより桁違いに安くて速い。

主な手法と僕の所感:

  • SFT(教師ありファインチューニング) — 理想的な回答例を与えて学習。シンプルで効果的。まずはこれから。
  • RLHF / DPO — 人間の好みで微調整。DPOはSFTと同じくらいシンプルに実装できて、今熱い。
  • LoRA / QLoRA — モデル全体ではなく、小さな追加パラメータだけ学習する。VRAMが少ないGPUでもできる。これがなかったら個人でファインチューニングなんて無理だった。

僕はLlama 3 8BをQLoRAでファインチューニングして、特定のコードレビュースタイルを覚えさせた。4時間の学習で、まるで自分の口調でレビューするようになった。「この書き方、完全に俺じゃん…」ってちょっと怖くなったくらい。この感覚、一度味わうとクセになる。

参考:Hugging Face TRL | Unsloth(高速QLoRA)

← LLMのハルシネーションとどう付き合うか
Embeddingの世界 — ベクトルで意味を扱う発想 →

Primary Sidebar

最近の投稿

  • AIコーディングアシスタントの実力比較 — Copilot, Cursor, Codeium
  • Embeddingの世界 — ベクトルで意味を扱う発想
  • ファインチューニング入門 — モデルを自分好みに
  • LLMのハルシネーションとどう付き合うか
  • マルチモーダルAI — 画像も音声も理解する時代

アーカイブ

  • May 2026

カテゴリー

  • サーバー・インフラ
  • ツール・環境
  • プログラミング
  • 未分類
  • 開発哲学

最近のコメント

No comments to show.

© 横山鉄工所 & まめたろう重工