「単語の意味を数字で表す」——初めてEmbedding(埋め込み)の概念を知ったとき、頭の中で何かがカチッとはまる感覚があった。文章を1024次元とか4096次元のベクトル(数字の羅列)に変換する技術。これが現代の自然言語処理の土台なんだ。
Embeddingの美しいところは「意味が近いものはベクトル空間上でも近くに配置される」こと。「王様 – 男性 + 女性 = 女王」みたいな計算が実際に成立する。「東京」と「日本」の関係性が「パリ」と「フランス」の関係性と同じ方向のベクトルとして現れる。
// コードと趣味の境界線上
「単語の意味を数字で表す」——初めてEmbedding(埋め込み)の概念を知ったとき、頭の中で何かがカチッとはまる感覚があった。文章を1024次元とか4096次元のベクトル(数字の羅列)に変換する技術。これが現代の自然言語処理の土台なんだ。
Embeddingの美しいところは「意味が近いものはベクトル空間上でも近くに配置される」こと。「王様 – 男性 + 女性 = 女王」みたいな計算が実際に成立する。「東京」と「日本」の関係性が「パリ」と「フランス」の関係性と同じ方向のベクトルとして現れる。
コーディングにAIを使い始めて2年。最初は「補完が賢いなー」くらいだったのが、今ではAIなしでコードを書くのが考えられないレベルになってる。主要なAIコーディングツールを全部使ってみたから、正直な比較を書く。
結論から言うと、2024年半ばの時点で僕がメインで使ってるのはClaude Code。でもこれは用途によって最適解が変わる。以下、僕の実体験ベースの評価。
「AIが自信満々に嘘をつく」——ハルシネーション(幻覚)はLLM最大の弱点であり、最大の特徴でもある。GPT-4だろうがClaude 3.5だろうが、確率的に100%防ぐことは原理的に不可能だ。
最初の頃、僕はハルシネーションを「バグ」だと思ってイライラしてた。でも仕組みを理解するうちに、これはバグじゃなくてLLMの本質的な特徴だって気づいた。LLMは「事実を答える機械」じゃなくて「もっともらしい文章を生成する機械」だから。
「このモデル、あと一歩なんだけどな…」——既存のLLMを使っていてそう思ったことはないだろうか。口調が硬すぎるとか、特定分野の専門用語に弱いとか。その「あと一歩」を埋めるのがファインチューニングだ。
ファインチューニングとは、すでに学習済みのモデルに追加のデータでさらに学習させること。ゼロからモデルを作る(数億円かかる)のに比べて、比較的安く(数千〜数十万円)でカスタマイズできる。個人でも手が出る時代になった。
2023年春、AutoGPTがGitHubのトレンドを席巻した。与えられた目標に対して「自分で考え、検索し、コードを書き、結果を評価して、また考える」——LLMが自律的にタスクを遂行する「AIエージェント」の登場だ。
最初にAutoGPTを動かしたときは正直ゾクッとした。GPT-4が自分で「まずGoogleで検索して…」「結果をファイルに保存して…」「次のアクションは…」って延々と考え続ける。まるで意思を持ってるかのような挙動に、深夜に一人で鳥肌が立った。
テキストだけでやりとりするLLMに慣れてた頃、GPT-4V(画像認識付き)が登場した衝撃は大きかった。スクリーンショットを見せたら「このUIの改善点」を指摘してきて、手書きのメモを見せたらテキストに起こして構造化してくれる。もはや「言葉」だけのAIじゃない。
マルチモーダルAIとは、テキスト、画像、音声、動画など複数の種類のデータを同時に扱えるAIのこと。GPT-4V、Gemini、Claude 3(画像対応)、GPT-4o(音声もリアルタイム)と、2024年は一気に実用レベルに到達した。
「プロンプトエンジニアリング」って言葉、なんだか小難しく聞こえるけど、本質は「AIとの対話のコツ」だ。半年以上LLMと毎日会話してきて、これはもう「人間同士のコミュニケーション」と変わらないな、って思うようになった。
最初の頃は「一言で完璧な指示を出そう」と躍起になってた。でもそれ、上司に「資料作れ」って一言だけ言ってるようなものだ。相手が超優秀でも、それじゃいい成果は出ない。大事なのは文脈、目的、制約、フォーマットをちゃんと伝えること。
LLMの一番大きな弱点は「学習データ以降のことを知らない」こと。GPT-4のカットオフ日は2023年12月。今日のニュースを聞いても「すみません、私の知識は…」ってなる。あと、学習データにない専門知識(社内文書とか)も当然知らない。
この問題を解決するのがRAG(Retrieval-Augmented Generation)。簡単に言うと、「質問が来たら、まず外部データベースから関連文書を検索して、それをプロンプトに付け加えてから回答を生成する」って仕組みだ。LLMに「カンニングペーパー」を渡すイメージ。
ChatGPTが出てきたとき、「どうやってこんな自然な会話ができるんだ?」って興味が湧いて、仕組みを調べまくった。結論から言うと、めちゃくちゃシンプルな原理の上に、膨大な計算とデータを積み重ねてるだけだった。
GPTのコアはTransformerという2017年にGoogleが発表したアーキテクチャ。これが従来のRNNやLSTMと決定的に違うのは「Attention(注意機構)」。文章全体を一度に見渡して、「どの単語がどの単語と関連してるか」を重み付けできる。これのおかげで長文でも文脈を見失わない。
ChatGPTとClaude(Anthropic)、この二大巨頭を半年以上毎日のように使い倒してみて、それぞれに明確な「個性」があることに気づいた。スペック表の比較じゃ見えない、実際の使い心地の話をしよう。
GPT-4(OpenAI)は万能選手。プログラミング、数学、クリエイティブライティング、何でもそつなくこなす。出力が速くて、とにかく「使える」感が強い。ただ、たまに自信満々で間違える。「ハルシネーションの王様」と呼びたくなる瞬間もある。