理想的には、人工知能エージェントは人間を支援することを目指しているが、人間が相反することを望む場合、それはどういう意味を持つのだろうか。私の同僚と私は、人間のグループとAIエージェントの目標の一致度を測定する方法を考案した。
アラインメント問題—AIシステムが人間の価値観に従って行動することを確保すること—は、AI能力が指数関数的に成長するにつれてより緊急性を増している。しかし、現実世界では、誰もが独自の優先事項を持っているため、AIを人類に合わせることは不可能に思える。例えば、歩行者は事故が起きそうな場合に自動運転車がブレーキをかけることを望むかもしれないが、車内の乗客は車が回避行動を取ることを好むかもしれない。
このような例を検討することで、私たちは関与する人間とAIエージェント、異なる問題に対する彼らの特定の目標、そして各問題が彼らにとってどれだけ重要かという3つの主要な要因に基づいた不一致のスコアを開発した。私たちの不一致モデルは単純な洞察に基づいている:人間とAIエージェントのグループは、グループの目標が最も互換性がある場合に最も一致している。
シミュレーションでは、目標がエージェント間で均等に分布している場合に不一致が最大になることがわかった。これは理にかなっている—全員が異なることを望むと、対立は最も高くなる。ほとんどのエージェントが同じ目標を共有している場合、不一致は減少する。
なぜこれが重要か
ほとんどのAI安全研究はアラインメントをすべてか無かの性質として扱う。私たちのフレームワークはそれがより複雑であることを示している。同じAIが一つの文脈では人間と一致しているが、別の文脈では一致していない可能性がある。
これが重要なのは、AI開発者がアラインされたAIという意味について、より正確に表現するのに役立つからである。「人間の価値観に合わせる」といった漠然とした目標ではなく、研究者や開発者はAIの特定の文脈や役割についてより明確に話し合うことができる。例えば、不必要な購入をするよう誘導する「おすすめ商品」などのAIレコメンダーシステムは、小売業者の売上増加という目標には一致しているかもしれないが、顧客の収入内で生活するという目標とは一致していない可能性がある。
政策立案者にとって、私たちのような評価フレームワークは、使用中のシステムでの不一致を測定し、アラインメントの基準を作成する方法を提供する。AI開発者や安全チームにとっては、競合するステークホルダーの利益のバランスを取るためのフレームワークを提供する。
すべての人にとって、問題を明確に理解することで、解決に役立てる能力が向上する。
他にどのような研究が行われているか
アラインメントを測定するために、私たちの研究は人間が望むことと、AIが望むことを比較できることを前提としている。人間の価値観データは調査を通じて収集でき、社会的選択の分野はAIアラインメントのためにそれを解釈するのに役立つツールを提供する。残念ながら、AIエージェントの目標を学ぶことははるかに難しい。
今日の最も賢いAIシステムは大規模言語モデルであり、そのブラックボックスの性質により、ChatGPTなどのAIエージェントの目標を学ぶことは困難である。解釈可能性研究は、モデルの内部の「思考」を明らかにすることで役立つかもしれないし、研究者は最初から透明に考えるAIを設計することもできる。しかし、現時点では、AIシステムが本当にアラインされているかどうかを知ることは不可能である。
次に何が来るか
現時点では、目標や好みが人間の望むことを完全に反映していない場合があることを認識している。より複雑なシナリオに対処するために、私たちは道徳哲学の専門家にAIを調整させるアプローチに取り組んでいる。
今後、開発者が多様な人間集団全体でアラインメントを測定し改善するための実用的なツールを実装することを期待している。