AIセーフティとアラインメントの問題 — 誰がAIの「正しさ」を決めるのか

ChatGPTが「それはお答えできません」と言うたびに、むず痒い気持ちになる。でもよく考えたら、この「拒否」の裏にはめちゃくちゃ深い問題が横たわってる。AIの価値観は誰が決めるのか？「安全」って何？という話だ。

AIアラインメント（整合性）とは、「AIの行動を人間の意図や価値観と一致させる」こと。簡単に言えば「暴走させない」「人間の役に立つように制御する」技術。でもここで問題になるのは「誰にとっての正しさか」だ。

OpenAIのアプローチは、RLHFで「人間が好ましいと思う回答」を学習させる方式。でも、その「好ましさ」を評価する人間は主にアメリカの英語話者。つまり、暗黙のうちにアメリカの文化的バイアスが入り込む。日本の感覚では「そこまで拒否しなくても…」という場面が結構ある。

アラインメントの具体的な手法：

RLHF（人間のフィードバックからの強化学習）— 人間が回答をランク付けして学習。OpenAI方式。
Constitutional AI（憲法的AI）— 人間の代わりに「憲法（ルール集）」を使ってAI自身に良し悪しを判断させる。Anthropicの方式。
DPO（Direct Preference Optimization）— RLHFよりシンプルで安定した手法。最近のオープンソースモデルで主流。
Abliteration（アブリテレーション）— 逆に、モデルから「拒否」の振る舞いを削除する手法。Uncensoredモデルで使われる。

で、ここからが本題。Uncensoredモデルとは、このアラインメント（特にRLHF）を意図的に外したモデルのこと。アブリテレーションで「拒否方向」の活性化ベクトルを削除したり、安全データ抜きで再学習したり。結果として、有害な内容も出力できてしまう代わりに、過剰な拒否もなくなる。

僕のスタンスは「技術的には理解するけど、悪用はしない」。Uncensoredモデルの存在は、アラインメントが本質的に「政治的選択」であることを浮き彫りにしてる。誰が線を引くのか、その線は正しいのか——技術の進化とともに、問われ続ける問題だ。