理想的には、人工知能エージェントは人間を支援することを目指しているが、人間が相反することを望む場合、それはどういう意味を持つのだろうか。私の同僚と私は、人間のグループとAIエージェントの目標の一致度を測定する方法を考案した。

アラインメント問題—AIシステムが人間の価値観に従って行動することを確保すること—は、AI能力が指数関数的に成長するにつれてより緊急性を増している。しかし、現実世界では、誰もが独自の優先事項を持っているため、AIを人類に合わせることは不可能に思える。例えば、歩行者は事故が起きそうな場合に自動運転車がブレーキをかけることを望むかもしれないが、車内の乗客は車が回避行動を取ることを好むかもしれない。

このような例を検討することで、私たちは関与する人間とAIエージェント、異なる問題に対する彼らの特定の目標、そして各問題が彼らにとってどれだけ重要かという3つの主要な要因に基づいた不一致のスコアを開発した。私たちの不一致モデルは単純な洞察に基づいている：人間とAIエージェントのグループは、グループの目標が最も互換性がある場合に最も一致している。

シミュレーションでは、目標がエージェント間で均等に分布している場合に不一致が最大になることがわかった。これは理にかなっている—全員が異なることを望むと、対立は最も高くなる。ほとんどのエージェントが同じ目標を共有している場合、不一致は減少する。

なぜこれが重要か

ほとんどのAI安全研究はアラインメントをすべてか無かの性質として扱う。私たちのフレームワークはそれがより複雑であることを示している。同じAIが一つの文脈では人間と一致しているが、別の文脈では一致していない可能性がある。

これが重要なのは、AI開発者がアラインされたAIという意味について、より正確に表現するのに役立つからである。「人間の価値観に合わせる」といった漠然とした目標ではなく、研究者や開発者はAIの特定の文脈や役割についてより明確に話し合うことができる。例えば、不必要な購入をするよう誘導する「おすすめ商品」などのAIレコメンダーシステムは、小売業者の売上増加という目標には一致しているかもしれないが、顧客の収入内で生活するという目標とは一致していない可能性がある。

政策立案者にとって、私たちのような評価フレームワークは、使用中のシステムでの不一致を測定し、アラインメントの基準を作成する方法を提供する。AI開発者や安全チームにとっては、競合するステークホルダーの利益のバランスを取るためのフレームワークを提供する。

すべての人にとって、問題を明確に理解することで、解決に役立てる能力が向上する。

他にどのような研究が行われているか

アラインメントを測定するために、私たちの研究は人間が望むことと、AIが望むことを比較できることを前提としている。人間の価値観データは調査を通じて収集でき、社会的選択の分野はAIアラインメントのためにそれを解釈するのに役立つツールを提供する。残念ながら、AIエージェントの目標を学ぶことははるかに難しい。

今日の最も賢いAIシステムは大規模言語モデルであり、そのブラックボックスの性質により、ChatGPTなどのAIエージェントの目標を学ぶことは困難である。解釈可能性研究は、モデルの内部の「思考」を明らかにすることで役立つかもしれないし、研究者は最初から透明に考えるAIを設計することもできる。しかし、現時点では、AIシステムが本当にアラインされているかどうかを知ることは不可能である。

次に何が来るか

現時点では、目標や好みが人間の望むことを完全に反映していない場合があることを認識している。より複雑なシナリオに対処するために、私たちは道徳哲学の専門家にAIを調整させるアプローチに取り組んでいる。

今後、開発者が多様な人間集団全体でアラインメントを測定し改善するための実用的なツールを実装することを期待している。

本記事は、コネチカット大学コンピュータ理工学博士課程在籍Aidan Kierans氏によって執筆され、The Conversationに掲載された記事「Getting AIs working toward human goals − study shows how to measure misalignment」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。

AIが人間の目標に沿って機能するようにする方法

なぜこれが重要か

他にどのような研究が行われているか

次に何が来るか

関連する事物

この記事はいかがでしたか？

「奇跡の全固体電池」はリチウムイオン電池だった――Donut Lab疑惑、電気化学的証拠が決定打に

電気抵抗ゼロで空を飛ぶ。ストラスクライド大が実証した超伝導航空用モーターの破壊力

DDR4プラットフォームが再び増産へ、AIメモリ不足でPC自作の前提が変わり始めた

AIチップの熱問題を救う新構造。抵抗を50分の1にし次世代「テルル半導体」の実用化を加速させるブレイクスルー

2027年のNAND不足悪化で、SSD市場は「容量減」と「PCIe 5化」が同時に進む

「奇跡の全固体電池」はリチウムイオン電池だった――Donut Lab疑惑、電気化学的証拠が決定打に

フィンランドが海底ケーブル防衛を実証。錨引きずりを検知するセンサー網により”切断後の復旧”から”切断前の警報”へ

Intelファウンドリ事業に転機、Googleが300万個超のTPUを発注しNVIDIAも先端プロセスを検証へ

アルツハイマー病による記憶障害をグルコサミンのサプリが早める可能性が新たな研究で明らかに

4年前のCPUを「もう一度作る」のがこれほど難しいとは：AMDが5800X3D復活で直面した壁

なぜこれが重要か

他にどのような研究が行われているか

次に何が来るか

関連する事物

この記事はいかがでしたか？

関連記事

AIは実際には「学習」していない &#8211; その理由を知ることでより責任ある使い方ができるようになる

Google、最新AI「Gemini 2.5 Pro」発表 &#8211; 推論能力強化モデルがベンチマークで競合を凌駕

AppleのSiri改革失敗の真相 — 10年に及ぶリーダーシップ争いとAI開発の迷走

AIは実際には「学習」していない – その理由を知ることでより責任ある使い方ができるようになる

Google、最新AI「Gemini 2.5 Pro」発表 – 推論能力強化モデルがベンチマークで競合を凌駕