テキストだけじゃない。画像を見て「この猫はちょっと機嫌悪そうですね」と言い、音声を聞いて「会議の要点は3つです」とまとめる。マルチモーダルAIが当たり前になった今、正直もうテキストだけのAIには戻れない。
GPT-4V(Vision)やClaude 3の画像認識、Whisperの音声認識。LLMがテキスト以外の情報を扱えるようになって、ユースケースが一気に爆発した。
実際に使って「これはヤバい」と思った瞬間:
- 手書きのUIスケッチを写真に撮って「このデザインをReactで」→ 数分で動くコード。デザイナーいらず。
- ホワイトボードの議論を撮影 → 議事録自動生成。写真撮るだけで会議のメモが完了。
- エラー画面のスクショ → 「このエラーは〇〇が原因です。直し方は…」→ エラーメッセージでググるより速い。
- レシート写真 → 経費精算を自動化。手入力の地獄から解放。
マルチモーダルAIの面白いのは、人間のコミュニケーションにどんどん近づいているところだ。僕たちはテキストだけでやり取りしてるわけじゃない。表情、図、声のトーン、全部ひっくるめて理解し合ってる。AIも同じ方向に進化してる。
音声(Whisper)、画像(GPT-4V/Claude 3)、映像——それぞれ試してみてほしい。テキストだけのAIが急に古く感じるから。