オープンソースLLMの現状 — Llama, Mistral, Gemmaを全部試す

「AIはビッグテックの独占物」ってイメージ、2023年まではそうだった。でも2024年、オープンソースLLMの進化がヤバい。MetaのLlama 3、Mistral、GoogleのGemma——無料で使えて、ローカルでも動いて、しかもかなり賢い。

僕はこの半年で主要なオープンソースLLMを片っ端から試した。RTX 3090（24GB VRAM）一枚でここまでできるのか、って感動と興奮の連続だった。

主要モデルの所感：

Llama 3（Meta） — 8B版と70B版。8Bでも結構賢くて、個人のGPUでもサクサク動く。70Bは流石にVRAM 24GBに収まらないから4bit量子化して使う。全体的にバランスが良くて、最初に試すならこれ。コミュニティも巨大。
Mistral（Mistral AI） — フランス発。7Bでこの賢さは異常。特に英語とフランス語とコード。Mixtral 8x7B（MoEアーキテクチャ）は8人中2人だけ動かす方式で速い。
Gemma（Google） — 2Bと7B。小さいけどGeminiの技術が詰まってる。2Bはラズパイでも動くレベルなのに、簡単な会話なら十分。
Qwen 2.5（Alibaba） — 中国発。72Bがオープンソース化されてて、多言語性能（日本語も）が高い。
Command R+（Cohere） — エンタープライズ向け。RAGとツール使用に強い。

オープンソースLLMのいいところ：

でも正直、GPT-4oやClaude 3.5 Sonnetにはまだ及ばない。ただ、差は急速に縮まってる。あと1年で逆転する可能性もあり得る。