AI

Embeddingの世界 — ベクトルで意味を扱う発想

「単語の意味を数字で表す」——初めてEmbedding（埋め込み）の概念を知ったとき、頭の中で何かがカチッとはまる感覚があった。文章を1024次元とか4096次元のベクトル（数字の羅列）に変換する技術。これが現代の自然言語処理の土台なんだ。

Embeddingの美しいところは「意味が近いものはベクトル空間上でも近くに配置される」こと。「王様 – 男性 + 女性 = 女王」みたいな計算が実際に成立する。「東京」と「日本」の関係性が「パリ」と「フランス」の関係性と同じ方向のベクトルとして現れる。

AIコーディングアシスタントの実力比較 — どれを選ぶべきか

コーディングにAIを使い始めて2年。最初は「補完が賢いなー」くらいだったのが、今ではAIなしでコードを書くのが考えられないレベルになってる。主要なAIコーディングツールを全部使ってみたから、正直な比較を書く。

結論から言うと、2024年半ばの時点で僕がメインで使ってるのはClaude Code。でもこれは用途によって最適解が変わる。以下、僕の実体験ベースの評価。

LLMのハルシネーションとどう付き合うか — 「嘘」を前提に使う発想

「AIが自信満々に嘘をつく」——ハルシネーション（幻覚）はLLM最大の弱点であり、最大の特徴でもある。GPT-4だろうがClaude 3.5だろうが、確率的に100%防ぐことは原理的に不可能だ。

最初の頃、僕はハルシネーションを「バグ」だと思ってイライラしてた。でも仕組みを理解するうちに、これはバグじゃなくてLLMの本質的な特徴だって気づいた。LLMは「事実を答える機械」じゃなくて「もっともらしい文章を生成する機械」だから。

ファインチューニング入門 — モデルを自分好みに仕上げる

「このモデル、あと一歩なんだけどな…」——既存のLLMを使っていてそう思ったことはないだろうか。口調が硬すぎるとか、特定分野の専門用語に弱いとか。その「あと一歩」を埋めるのがファインチューニングだ。

ファインチューニングとは、すでに学習済みのモデルに追加のデータでさらに学習させること。ゼロからモデルを作る（数億円かかる）のに比べて、比較的安く（数千〜数十万円）でカスタマイズできる。個人でも手が出る時代になった。

AIエージェントの衝撃 — AutoGPTから学ぶ自律性

2023年春、AutoGPTがGitHubのトレンドを席巻した。与えられた目標に対して「自分で考え、検索し、コードを書き、結果を評価して、また考える」——LLMが自律的にタスクを遂行する「AIエージェント」の登場だ。

最初にAutoGPTを動かしたときは正直ゾクッとした。GPT-4が自分で「まずGoogleで検索して…」「結果をファイルに保存して…」「次のアクションは…」って延々と考え続ける。まるで意思を持ってるかのような挙動に、深夜に一人で鳥肌が立った。

マルチモーダルAI — 画像も音声も理解する時代

テキストだけでやりとりするLLMに慣れてた頃、GPT-4V（画像認識付き）が登場した衝撃は大きかった。スクリーンショットを見せたら「このUIの改善点」を指摘してきて、手書きのメモを見せたらテキストに起こして構造化してくれる。もはや「言葉」だけのAIじゃない。

マルチモーダルAIとは、テキスト、画像、音声、動画など複数の種類のデータを同時に扱えるAIのこと。GPT-4V、Gemini、Claude 3（画像対応）、GPT-4o（音声もリアルタイム）と、2024年は一気に実用レベルに到達した。

プロンプトエンジニアリングは「対話」だ — 僕のプロンプト設計論

「プロンプトエンジニアリング」って言葉、なんだか小難しく聞こえるけど、本質は「AIとの対話のコツ」だ。半年以上LLMと毎日会話してきて、これはもう「人間同士のコミュニケーション」と変わらないな、って思うようになった。

最初の頃は「一言で完璧な指示を出そう」と躍起になってた。でもそれ、上司に「資料作れ」って一言だけ言ってるようなものだ。相手が超優秀でも、それじゃいい成果は出ない。大事なのは文脈、目的、制約、フォーマットをちゃんと伝えること。

RAGの基本 — LLMに外部知識を与える技術

LLMの一番大きな弱点は「学習データ以降のことを知らない」こと。GPT-4のカットオフ日は2023年12月。今日のニュースを聞いても「すみません、私の知識は…」ってなる。あと、学習データにない専門知識（社内文書とか）も当然知らない。

この問題を解決するのがRAG（Retrieval-Augmented Generation）。簡単に言うと、「質問が来たら、まず外部データベースから関連文書を検索して、それをプロンプトに付け加えてから回答を生成する」って仕組みだ。LLMに「カンニングペーパー」を渡すイメージ。

GPTの仕組みをざっくり理解する — TransformerからRLHFまで

ChatGPTが出てきたとき、「どうやってこんな自然な会話ができるんだ？」って興味が湧いて、仕組みを調べまくった。結論から言うと、めちゃくちゃシンプルな原理の上に、膨大な計算とデータを積み重ねてるだけだった。

GPTのコアはTransformerという2017年にGoogleが発表したアーキテクチャ。これが従来のRNNやLSTMと決定的に違うのは「Attention（注意機構）」。文章全体を一度に見渡して、「どの単語がどの単語と関連してるか」を重み付けできる。これのおかげで長文でも文脈を見失わない。

Claude vs GPT-4 — 使ってみて感じる本質的な違い

ChatGPTとClaude（Anthropic）、この二大巨頭を半年以上毎日のように使い倒してみて、それぞれに明確な「個性」があることに気づいた。スペック表の比較じゃ見えない、実際の使い心地の話をしよう。

GPT-4（OpenAI）は万能選手。プログラミング、数学、クリエイティブライティング、何でもそつなくこなす。出力が速くて、とにかく「使える」感が強い。ただ、たまに自信満々で間違える。「ハルシネーションの王様」と呼びたくなる瞬間もある。

« Previous Page