Embeddingの世界 — ベクトルで意味を扱う発想

「単語の意味を数字で表す」——初めてEmbedding（埋め込み）の概念を知ったとき、頭の中で何かがカチッとはまる感覚があった。文章を1024次元とか4096次元のベクトル（数字の羅列）に変換する技術。これが現代の自然言語処理の土台なんだ。

Embeddingの美しいところは「意味が近いものはベクトル空間上でも近くに配置される」こと。「王様 – 男性 + 女性 = 女王」みたいな計算が実際に成立する。「東京」と「日本」の関係性が「パリ」と「フランス」の関係性と同じ方向のベクトルとして現れる。

Embeddingがどんな場所で使われてるか：

有名なEmbeddingモデル：

Embedding次元の選び方。Matryoshka Embedding（マトリョーシカ埋め込み）で、3072次元のモデルを256次元に縮めても精度が大きく落ちない。ストレージも速度も節約できるから、実運用ではかなりありがたい。