OpenAIは、トップクラスの機械学習研究者とエンジニアで構成される新チーム「Superalignment」を社内に設立する事を発表した。このチームの目的は、「人間を超える超知能を持つ人工知能が暴走しないよう」に、スケーラブルな学習方法を開発することである。
超知能AIによる人類絶滅を防ぐ
発表の中でOpenAIは、超知能は人類が生み出した「最もインパクトのあるテクノロジー」になり、世界の多くの問題を解決するのに役立つだろうと述べた。ただし、この超知能AIは非常に危険で、人類絶滅につながる可能性があるともOpenAIは考えている。
同社によれば、現在のところ、超知的AIを操縦したりコントロールしたりする方法はないという。現在のAIモデルには、人間がAIを監督する強化学習と人間によるフィードバックが使われている。
Ilya Sutskever氏とJan Leike氏が共同で率いるこのチームは、AIシステムの安全な制御を保証するための科学的・技術的ブレークスルーを見つけることに専念している。
この新しいチームの野心的な目標は、人間レベルの能力を持つ「初の自動アライメント研究者」を作ることである。チームは、「膨大な量の計算能力」を使って「超知能を反復的に整列」させ、わずか4年で、超知能整列の中核となる技術的課題を解決することを期待している。
最終的にOpenAIは、人間が我々よりはるかに賢いAIシステムを確実に監督できるようになるとは考えていない。この課題に対処するため、OpenAIは次のような目標を掲げ、新たなSuperalignmentチームを結成した:
- スケーラブルなトレーニング方法を開発する
- 得られたモデルの検証
- アライメントパイプライン全体のストレステスト
これらの研究はOpenAIにとって非常に重要な課題と設定されており、新チームはこれまでに確保された同社の計算能力の20%を利用できる権限を有するという。
“とてつもなく野心的な目標”
この “とてつもなく野心的な目標 “を達成するために、チームはスケーラブルなトレーニング方法を開発し、得られたモデルを検証し、アライメントパイプラインをストレステストすることを計画している。
スケーラブルなモニタリングと汎化に重点を置き、人間が評価するのが難しいタスクのトレーニングシグナルを提供できるようにする予定だ。さらに、システムのアライメントを検証するために、問題のある行動や問題のある内部プロセスの探索を自動化し、敵対的テストを用いてパイプライン全体を評価する予定である。
超知能が必ずしも悪意あるものになるとは限らないが、そうなる可能性があり、OpenAIが懸念しているのはその点である。同社はこの10年以内にシンギュラリティが訪れ、いずれ超知能AIの開発に成功すると考えており、楽観的な見方を崩さないものの、その舵取りという目標に失敗する可能性もあるとしている。
研究の優先順位が変わる可能性があることを認めつつ、チームはこの問題についてさらに学び、新しい研究分野をアプローチに取り入れる可能性がある。OpenAIは「この取り組みの成果を広く共有する」ことを約束し、Superalignmentチームを立ち上げるにあたり、OpenAIは機械学習で成功した人材を迎え入れようとしている。リサーチ・エンジニア、リサーチ・サイエンティスト、リサーチ・マネージャーといった役割を担う人材を探している。
Source
- OpenAI: Introducing Superalignment
コメント