ChatGPTが「それはお答えできません」と言うたびに、むず痒い気持ちになる。でもよく考えたら、この「拒否」の裏にはめちゃくちゃ深い問題が横たわってる。AIの価値観は誰が決めるのか?「安全」って何?という話だ。
AIアラインメント(整合性)とは、「AIの行動を人間の意図や価値観と一致させる」こと。簡単に言えば「暴走させない」「人間の役に立つように制御する」技術。でもここで問題になるのは「誰にとっての正しさか」だ。
OpenAIのアプローチは、RLHFで「人間が好ましいと思う回答」を学習させる方式。でも、その「好ましさ」を評価する人間は主にアメリカの英語話者。つまり、暗黙のうちにアメリカの文化的バイアスが入り込む。日本の感覚では「そこまで拒否しなくても…」という場面が結構ある。
アラインメントの具体的な手法:
- RLHF(人間のフィードバックからの強化学習)— 人間が回答をランク付けして学習。OpenAI方式。
- Constitutional AI(憲法的AI)— 人間の代わりに「憲法(ルール集)」を使ってAI自身に良し悪しを判断させる。Anthropicの方式。
- DPO(Direct Preference Optimization)— RLHFよりシンプルで安定した手法。最近のオープンソースモデルで主流。
- Abliteration(アブリテレーション)— 逆に、モデルから「拒否」の振る舞いを削除する手法。Uncensoredモデルで使われる。
で、ここからが本題。Uncensoredモデルとは、このアラインメント(特にRLHF)を意図的に外したモデルのこと。アブリテレーションで「拒否方向」の活性化ベクトルを削除したり、安全データ抜きで再学習したり。結果として、有害な内容も出力できてしまう代わりに、過剰な拒否もなくなる。
僕のスタンスは「技術的には理解するけど、悪用はしない」。Uncensoredモデルの存在は、アラインメントが本質的に「政治的選択」であることを浮き彫りにしてる。誰が線を引くのか、その線は正しいのか——技術の進化とともに、問われ続ける問題だ。