• Skip to main content
  • Skip to primary sidebar

bloggggggggggggggg

// コードと趣味の境界線上

AIセーフティとアラインメントの問題 — 誰がAIの「正しさ」を決めるのか

ChatGPTが「それはお答えできません」と言うたびに、むず痒い気持ちになる。でもよく考えたら、この「拒否」の裏にはめちゃくちゃ深い問題が横たわってる。AIの価値観は誰が決めるのか?「安全」って何?という話だ。

AIアラインメント(整合性)とは、「AIの行動を人間の意図や価値観と一致させる」こと。簡単に言えば「暴走させない」「人間の役に立つように制御する」技術。でもここで問題になるのは「誰にとっての正しさか」だ。

OpenAIのアプローチは、RLHFで「人間が好ましいと思う回答」を学習させる方式。でも、その「好ましさ」を評価する人間は主にアメリカの英語話者。つまり、暗黙のうちにアメリカの文化的バイアスが入り込む。日本の感覚では「そこまで拒否しなくても…」という場面が結構ある。

アラインメントの具体的な手法:

  • RLHF(人間のフィードバックからの強化学習)— 人間が回答をランク付けして学習。OpenAI方式。
  • Constitutional AI(憲法的AI)— 人間の代わりに「憲法(ルール集)」を使ってAI自身に良し悪しを判断させる。Anthropicの方式。
  • DPO(Direct Preference Optimization)— RLHFよりシンプルで安定した手法。最近のオープンソースモデルで主流。
  • Abliteration(アブリテレーション)— 逆に、モデルから「拒否」の振る舞いを削除する手法。Uncensoredモデルで使われる。

で、ここからが本題。Uncensoredモデルとは、このアラインメント(特にRLHF)を意図的に外したモデルのこと。アブリテレーションで「拒否方向」の活性化ベクトルを削除したり、安全データ抜きで再学習したり。結果として、有害な内容も出力できてしまう代わりに、過剰な拒否もなくなる。

僕のスタンスは「技術的には理解するけど、悪用はしない」。Uncensoredモデルの存在は、アラインメントが本質的に「政治的選択」であることを浮き彫りにしてる。誰が線を引くのか、その線は正しいのか——技術の進化とともに、問われ続ける問題だ。

参考:Anthropic Constitutional AI | DPO論文

← LLMのトークナイザー — なぜ「りんご」が2トークンなのか
オープンソースLLMの現状 — Llama, Mistral, Gemmaを全部試す →

Primary Sidebar

最近の投稿

  • インフラエンジニアのキャリアパス — 手動運用からSREへ
  • 障害対応の心得 — 本番で焦らないために
  • 監視設計の基本 — 何をどう見るべきか
  • ログ管理 — ELKスタック入門
  • HTTPSと証明書管理 — Let’s Encryptの恩恵を最大限に

アーカイブ

  • May 2026

カテゴリー

  • AI
  • Linux
  • OS
  • Windows
  • インフラ・DevOps
  • おうちサーバー
  • サーバー・インフラ
  • ツール・環境
  • プログラミング
  • 未分類
  • 開発哲学

最近のコメント

No comments to show.

© 横山鉄工所 & まめたろう重工