• Skip to main content
  • Skip to primary sidebar

bloggggggggggggggg

// コードと趣味の境界線上

2024〜2025年 LLMの進化を振り返る — 激動の2年間

2022年11月30日、ChatGPTが公開された。あれからまだ2年ちょっとしか経ってないのに、もはや「ChatGPT以前」の記憶が薄れ始めてる。この2年間、LLMの世界は目まぐるしく変わった。時系列で振り返ってみよう。

ChatGPTの登場はインターネット以来の衝撃だった。公開5日で100万ユーザー。2ヶ月で1億人。このペースは歴史上のどんなプロダクトより速い。世界が「AI」を意識し始めた瞬間だ。

[Read more…] about 2024〜2025年 LLMの進化を振り返る — 激動の2年間

AIが変える検索体験 — Perplexityの衝撃

「Googleで検索して、青いリンクを10個眺めて、一個ずつ開いて読む」——この当たり前の検索体験が、AIによって根本から覆されようとしてる。その中心にいるのがPerplexityだ。

PerplexityはAI検索エンジン。質問を入れると、検索結果のリンク集じゃなくて、複数ソースを参照しまとめた回答を直接返してくる。しかも出典リンク付き。使ってみた初日、「これが検索の未来か」と素直に感動した。

[Read more…] about AIが変える検索体験 — Perplexityの衝撃

オープンソースLLMの現状 — Llama, Mistral, Gemmaを全部試す

「AIはビッグテックの独占物」ってイメージ、2023年まではそうだった。でも2024年、オープンソースLLMの進化がヤバい。MetaのLlama 3、Mistral、GoogleのGemma——無料で使えて、ローカルでも動いて、しかもかなり賢い。

僕はこの半年で主要なオープンソースLLMを片っ端から試した。RTX 3090(24GB VRAM)一枚でここまでできるのか、って感動と興奮の連続だった。

[Read more…] about オープンソースLLMの現状 — Llama, Mistral, Gemmaを全部試す

AIセーフティとアラインメントの問題 — 誰がAIの「正しさ」を決めるのか

ChatGPTが「それはお答えできません」と言うたびに、むず痒い気持ちになる。でもよく考えたら、この「拒否」の裏にはめちゃくちゃ深い問題が横たわってる。AIの価値観は誰が決めるのか?「安全」って何?という話だ。

AIアラインメント(整合性)とは、「AIの行動を人間の意図や価値観と一致させる」こと。簡単に言えば「暴走させない」「人間の役に立つように制御する」技術。でもここで問題になるのは「誰にとっての正しさか」だ。

[Read more…] about AIセーフティとアラインメントの問題 — 誰がAIの「正しさ」を決めるのか

LLMのトークナイザー — なぜ「りんご」が2トークンなのか

LLMを使っていると「トークン制限」という壁に必ずぶつかる。でも「トークン」って何?文字数とは違うの?と思ったこと、ないだろうか。これ、LLMを深く理解する上でめちゃくちゃ重要な概念だ。

トークンとは、LLMがテキストを処理する最小単位。英語ならおおよそ「1単語≒1.3トークン」。でも日本語はそう単純じゃない。「りんご」は1トークンのこともあれば2トークンのこともある。漢字一文字で1トークンになることも。この言語間格差、地味にデカい。

[Read more…] about LLMのトークナイザー — なぜ「りんご」が2トークンなのか

AIコーディングアシスタントの実力比較 — どれを選ぶべきか

コーディングにAIを使い始めて2年。最初は「補完が賢いなー」くらいだったのが、今ではAIなしでコードを書くのが考えられないレベルになってる。主要なAIコーディングツールを全部使ってみたから、正直な比較を書く。

結論から言うと、2024年半ばの時点で僕がメインで使ってるのはClaude Code。でもこれは用途によって最適解が変わる。以下、僕の実体験ベースの評価。

[Read more…] about AIコーディングアシスタントの実力比較 — どれを選ぶべきか

Embeddingの世界 — ベクトルで意味を扱う発想

「単語の意味を数字で表す」——初めてEmbedding(埋め込み)の概念を知ったとき、頭の中で何かがカチッとはまる感覚があった。文章を1024次元とか4096次元のベクトル(数字の羅列)に変換する技術。これが現代の自然言語処理の土台なんだ。

Embeddingの美しいところは「意味が近いものはベクトル空間上でも近くに配置される」こと。「王様 – 男性 + 女性 = 女王」みたいな計算が実際に成立する。「東京」と「日本」の関係性が「パリ」と「フランス」の関係性と同じ方向のベクトルとして現れる。

[Read more…] about Embeddingの世界 — ベクトルで意味を扱う発想

ファインチューニング入門 — モデルを自分好みに仕上げる

「このモデル、あと一歩なんだけどな…」——既存のLLMを使っていてそう思ったことはないだろうか。口調が硬すぎるとか、特定分野の専門用語に弱いとか。その「あと一歩」を埋めるのがファインチューニングだ。

ファインチューニングとは、すでに学習済みのモデルに追加のデータでさらに学習させること。ゼロからモデルを作る(数億円かかる)のに比べて、比較的安く(数千〜数十万円)でカスタマイズできる。個人でも手が出る時代になった。

[Read more…] about ファインチューニング入門 — モデルを自分好みに仕上げる

LLMのハルシネーションとどう付き合うか — 「嘘」を前提に使う発想

「AIが自信満々に嘘をつく」——ハルシネーション(幻覚)はLLM最大の弱点であり、最大の特徴でもある。GPT-4だろうがClaude 3.5だろうが、確率的に100%防ぐことは原理的に不可能だ。

最初の頃、僕はハルシネーションを「バグ」だと思ってイライラしてた。でも仕組みを理解するうちに、これはバグじゃなくてLLMの本質的な特徴だって気づいた。LLMは「事実を答える機械」じゃなくて「もっともらしい文章を生成する機械」だから。

[Read more…] about LLMのハルシネーションとどう付き合うか — 「嘘」を前提に使う発想

マルチモーダルAI — 画像も音声も理解する時代

テキストだけでやりとりするLLMに慣れてた頃、GPT-4V(画像認識付き)が登場した衝撃は大きかった。スクリーンショットを見せたら「このUIの改善点」を指摘してきて、手書きのメモを見せたらテキストに起こして構造化してくれる。もはや「言葉」だけのAIじゃない。

マルチモーダルAIとは、テキスト、画像、音声、動画など複数の種類のデータを同時に扱えるAIのこと。GPT-4V、Gemini、Claude 3(画像対応)、GPT-4o(音声もリアルタイム)と、2024年は一気に実用レベルに到達した。

[Read more…] about マルチモーダルAI — 画像も音声も理解する時代

« Previous Page
Next Page »

Primary Sidebar

最近の投稿

  • インフラエンジニアのキャリアパス — 手動運用からSREへ
  • 障害対応の心得 — 本番で焦らないために
  • 監視設計の基本 — 何をどう見るべきか
  • ログ管理 — ELKスタック入門
  • HTTPSと証明書管理 — Let’s Encryptの恩恵を最大限に

アーカイブ

  • May 2026

カテゴリー

  • AI
  • Linux
  • OS
  • Windows
  • インフラ・DevOps
  • おうちサーバー
  • サーバー・インフラ
  • ツール・環境
  • プログラミング
  • 未分類
  • 開発哲学

最近のコメント

No comments to show.

© 横山鉄工所 & まめたろう重工