bloggggggggggggggg

2024〜2025年 LLMの進化を振り返る — 激動の2年間

2022年11月30日、ChatGPTが公開された。あれからまだ2年ちょっとしか経ってないのに、もはや「ChatGPT以前」の記憶が薄れ始めてる。この2年間、LLMの世界は目まぐるしく変わった。時系列で振り返ってみよう。

ChatGPTの登場はインターネット以来の衝撃だった。公開5日で100万ユーザー。2ヶ月で1億人。このペースは歴史上のどんなプロダクトより速い。世界が「AI」を意識し始めた瞬間だ。

「Googleで検索して、青いリンクを10個眺めて、一個ずつ開いて読む」——この当たり前の検索体験が、AIによって根本から覆されようとしてる。その中心にいるのがPerplexityだ。

PerplexityはAI検索エンジン。質問を入れると、検索結果のリンク集じゃなくて、複数ソースを参照しまとめた回答を直接返してくる。しかも出典リンク付き。使ってみた初日、「これが検索の未来か」と素直に感動した。

「AIはビッグテックの独占物」ってイメージ、2023年まではそうだった。でも2024年、オープンソースLLMの進化がヤバい。MetaのLlama 3、Mistral、GoogleのGemma——無料で使えて、ローカルでも動いて、しかもかなり賢い。

僕はこの半年で主要なオープンソースLLMを片っ端から試した。RTX 3090（24GB VRAM）一枚でここまでできるのか、って感動と興奮の連続だった。

ChatGPTが「それはお答えできません」と言うたびに、むず痒い気持ちになる。でもよく考えたら、この「拒否」の裏にはめちゃくちゃ深い問題が横たわってる。AIの価値観は誰が決めるのか？「安全」って何？という話だ。

AIアラインメント（整合性）とは、「AIの行動を人間の意図や価値観と一致させる」こと。簡単に言えば「暴走させない」「人間の役に立つように制御する」技術。でもここで問題になるのは「誰にとっての正しさか」だ。

LLMを使っていると「トークン制限」という壁に必ずぶつかる。でも「トークン」って何？文字数とは違うの？と思ったこと、ないだろうか。これ、LLMを深く理解する上でめちゃくちゃ重要な概念だ。

トークンとは、LLMがテキストを処理する最小単位。英語ならおおよそ「1単語≒1.3トークン」。でも日本語はそう単純じゃない。「りんご」は1トークンのこともあれば2トークンのこともある。漢字一文字で1トークンになることも。この言語間格差、地味にデカい。

コーディングにAIを使い始めて2年。最初は「補完が賢いなー」くらいだったのが、今ではAIなしでコードを書くのが考えられないレベルになってる。主要なAIコーディングツールを全部使ってみたから、正直な比較を書く。

結論から言うと、2024年半ばの時点で僕がメインで使ってるのはClaude Code。でもこれは用途によって最適解が変わる。以下、僕の実体験ベースの評価。

「単語の意味を数字で表す」——初めてEmbedding（埋め込み）の概念を知ったとき、頭の中で何かがカチッとはまる感覚があった。文章を1024次元とか4096次元のベクトル（数字の羅列）に変換する技術。これが現代の自然言語処理の土台なんだ。

Embeddingの美しいところは「意味が近いものはベクトル空間上でも近くに配置される」こと。「王様 – 男性 + 女性 = 女王」みたいな計算が実際に成立する。「東京」と「日本」の関係性が「パリ」と「フランス」の関係性と同じ方向のベクトルとして現れる。

「このモデル、あと一歩なんだけどな…」——既存のLLMを使っていてそう思ったことはないだろうか。口調が硬すぎるとか、特定分野の専門用語に弱いとか。その「あと一歩」を埋めるのがファインチューニングだ。

ファインチューニングとは、すでに学習済みのモデルに追加のデータでさらに学習させること。ゼロからモデルを作る（数億円かかる）のに比べて、比較的安く（数千〜数十万円）でカスタマイズできる。個人でも手が出る時代になった。

「AIが自信満々に嘘をつく」——ハルシネーション（幻覚）はLLM最大の弱点であり、最大の特徴でもある。GPT-4だろうがClaude 3.5だろうが、確率的に100%防ぐことは原理的に不可能だ。

最初の頃、僕はハルシネーションを「バグ」だと思ってイライラしてた。でも仕組みを理解するうちに、これはバグじゃなくてLLMの本質的な特徴だって気づいた。LLMは「事実を答える機械」じゃなくて「もっともらしい文章を生成する機械」だから。

テキストだけでやりとりするLLMに慣れてた頃、GPT-4V（画像認識付き）が登場した衝撃は大きかった。スクリーンショットを見せたら「このUIの改善点」を指摘してきて、手書きのメモを見せたらテキストに起こして構造化してくれる。もはや「言葉」だけのAIじゃない。

マルチモーダルAIとは、テキスト、画像、音声、動画など複数の種類のデータを同時に扱えるAIのこと。GPT-4V、Gemini、Claude 3（画像対応）、GPT-4o（音声もリアルタイム）と、2024年は一気に実用レベルに到達した。