LLMのトークナイザー — なぜ「りんご」が2トークンなのか

LLMを使っていると「トークン制限」という壁に必ずぶつかる。でも「トークン」って何？文字数とは違うの？と思ったこと、ないだろうか。これ、LLMを深く理解する上でめちゃくちゃ重要な概念だ。

トークンとは、LLMがテキストを処理する最小単位。英語ならおおよそ「1単語≒1.3トークン」。でも日本語はそう単純じゃない。「りんご」は1トークンのこともあれば2トークンのこともある。漢字一文字で1トークンになることも。この言語間格差、地味にデカい。

トークナイザーの仕組み。有名なのはBPE（Byte Pair Encoding）。頻出する文字列パターンを辞書に登録していく方式だ。簡単に言うと：

これで「今日はいい天気」が「今日」「は」「いい」「天気」みたいに分割される。よく使う単語は1トークン、珍しい単語は複数トークン、という塩梅。

日本語のトークン問題は深刻で：

最近のモデル（GPT-4o、Claude 3）は日本語トークナイザーが改善されてて、以前よりはマシになった。でもまだ英語に比べると不利。これは日本語ユーザーの永遠の悩みだ。