マルチモーダルAI — 画像も音声も理解する時代

テキストだけでやりとりするLLMに慣れてた頃、GPT-4V（画像認識付き）が登場した衝撃は大きかった。スクリーンショットを見せたら「このUIの改善点」を指摘してきて、手書きのメモを見せたらテキストに起こして構造化してくれる。もはや「言葉」だけのAIじゃない。

マルチモーダルAIとは、テキスト、画像、音声、動画など複数の種類のデータを同時に扱えるAIのこと。GPT-4V、Gemini、Claude 3（画像対応）、GPT-4o（音声もリアルタイム）と、2024年は一気に実用レベルに到達した。

画像認識で一番感動した瞬間。実家の古いパソコンのエラー画面（ブルースクリーン）を写真に撮ってClaudeに見せたら、「このエラーコードはグラフィックドライバの不整合です。以下の手順で修復できます」って完璧な回答が返ってきた。これ、一昔前なら有料サポート案件だ。

マルチモーダルの仕組みをざっくり言うと：

GPT-4oの音声モードは特にヤバい。遅延がほとんどなくて、まるで電話で話してるみたい。こっちの声のトーンや感情まで読み取ってる感覚がある。通訳、カウンセリング、教育——応用範囲が広すぎて想像が追いつかない。

動画理解はまだ発展途上だけど、Gemini 1.5 Proは1時間の動画を丸ごと解析できる。このペースだと来年にはYouTube動画の全内容をインデックス化して検索できるようになりそう。