マルチモーダルAI — 画像も音声も理解する時代

テキストだけじゃない。画像を見て「この猫はちょっと機嫌悪そうですね」と言い、音声を聞いて「会議の要点は3つです」とまとめる。マルチモーダルAIが当たり前になった今、正直もうテキストだけのAIには戻れない。

GPT-4V（Vision）やClaude 3の画像認識、Whisperの音声認識。LLMがテキスト以外の情報を扱えるようになって、ユースケースが一気に爆発した。

実際に使って「これはヤバい」と思った瞬間：

マルチモーダルAIの面白いのは、人間のコミュニケーションにどんどん近づいているところだ。僕たちはテキストだけでやり取りしてるわけじゃない。表情、図、声のトーン、全部ひっくるめて理解し合ってる。AIも同じ方向に進化してる。

音声（Whisper）、画像（GPT-4V/Claude 3）、映像——それぞれ試してみてほしい。テキストだけのAIが急に古く感じるから。