テキストだけでやりとりするLLMに慣れてた頃、GPT-4V(画像認識付き)が登場した衝撃は大きかった。スクリーンショットを見せたら「このUIの改善点」を指摘してきて、手書きのメモを見せたらテキストに起こして構造化してくれる。もはや「言葉」だけのAIじゃない。
マルチモーダルAIとは、テキスト、画像、音声、動画など複数の種類のデータを同時に扱えるAIのこと。GPT-4V、Gemini、Claude 3(画像対応)、GPT-4o(音声もリアルタイム)と、2024年は一気に実用レベルに到達した。
画像認識で一番感動した瞬間。実家の古いパソコンのエラー画面(ブルースクリーン)を写真に撮ってClaudeに見せたら、「このエラーコードはグラフィックドライバの不整合です。以下の手順で修復できます」って完璧な回答が返ってきた。これ、一昔前なら有料サポート案件だ。
マルチモーダルの仕組みをざっくり言うと:
- 画像はVision Transformer(ViT)で処理して、テキストと同じ「トークン」の形に変換する
- 音声はWhisperなどでテキスト化してから処理する方式と、音声波形を直接処理する方式がある
- これらの異なるモダリティの情報を、LLMが一つの文脈として統合して理解する
GPT-4oの音声モードは特にヤバい。遅延がほとんどなくて、まるで電話で話してるみたい。こっちの声のトーンや感情まで読み取ってる感覚がある。通訳、カウンセリング、教育——応用範囲が広すぎて想像が追いつかない。
動画理解はまだ発展途上だけど、Gemini 1.5 Proは1時間の動画を丸ごと解析できる。このペースだと来年にはYouTube動画の全内容をインデックス化して検索できるようになりそう。