• Skip to main content
  • Skip to primary sidebar

bloggggggggggggggg

// コードと趣味の境界線上

マルチモーダルAI — 画像も音声も理解する時代

テキストだけじゃない。画像を見て「この猫はちょっと機嫌悪そうですね」と言い、音声を聞いて「会議の要点は3つです」とまとめる。マルチモーダルAIが当たり前になった今、正直もうテキストだけのAIには戻れない。

GPT-4V(Vision)やClaude 3の画像認識、Whisperの音声認識。LLMがテキスト以外の情報を扱えるようになって、ユースケースが一気に爆発した。

実際に使って「これはヤバい」と思った瞬間:

  • 手書きのUIスケッチを写真に撮って「このデザインをReactで」→ 数分で動くコード。デザイナーいらず。
  • ホワイトボードの議論を撮影 → 議事録自動生成。写真撮るだけで会議のメモが完了。
  • エラー画面のスクショ → 「このエラーは〇〇が原因です。直し方は…」→ エラーメッセージでググるより速い。
  • レシート写真 → 経費精算を自動化。手入力の地獄から解放。

マルチモーダルAIの面白いのは、人間のコミュニケーションにどんどん近づいているところだ。僕たちはテキストだけでやり取りしてるわけじゃない。表情、図、声のトーン、全部ひっくるめて理解し合ってる。AIも同じ方向に進化してる。

音声(Whisper)、画像(GPT-4V/Claude 3)、映像——それぞれ試してみてほしい。テキストだけのAIが急に古く感じるから。

参考:GPT-4V | Whisper

← AIエージェントの衝撃 — AutoGPTから学ぶ自律性
LLMのハルシネーションとどう付き合うか →

Primary Sidebar

最近の投稿

  • AIコーディングアシスタントの実力比較 — Copilot, Cursor, Codeium
  • Embeddingの世界 — ベクトルで意味を扱う発想
  • ファインチューニング入門 — モデルを自分好みに
  • LLMのハルシネーションとどう付き合うか
  • マルチモーダルAI — 画像も音声も理解する時代

アーカイブ

  • May 2026

カテゴリー

  • サーバー・インフラ
  • ツール・環境
  • プログラミング
  • 未分類
  • 開発哲学

最近のコメント

No comments to show.

© 横山鉄工所 & まめたろう重工