AIアライメントとは何か？この考えはAIの安全性に対してどのような役割を果たすのか？

2024年5月20日

当記事のリンクにはアフィリエイト広告が含まれています。

ますます高性能になる人工知能（AI）システムが普及するにつれ、それらがもたらすかもしれないリスクの問題が新たな緊急性を帯びてきた。政府、研究者、開発者はAIの安全性を強調している。

EUはAI規制について動き出し、英国はAI安全サミットを開催し、オーストラリアは安全で責任あるAIのサポートについて意見を求めている。

現在の関心の波は、偏見、誤用、労働搾取といった具体的なAIの安全性の問題に取り組む機会となっている。しかし、シリコンバレーの多くの人々は、「AIの整合性」という投機的なレンズを通して安全性を見ており、現在のAIシステムが社会に与えうる非常に現実的な害悪、そして私たちがそれらに対処できる現実的な方法を見逃している。

「AIアライメント」とは何か？

「AIアライメント」とは、AIシステムの振る舞いが、我々が望むもの、期待するものと一致するようにすることである。アライメントの研究は、現在の技術よりも高度な、仮想的な未来のAIシステムに焦点を当てる傾向がある。

技術がどのように発展していくかを予測するのは難しく、また人間は私たちが何を望んでいるのかを知ること、あるいはそれについて合意することが得意ではないため、これは難しい問題である。

とはいえ、アライメントの研究には事欠かない。「協調的逆強化学習」や「反復増幅」のような難解な名前の技術的・哲学的提案が数多くある。

大きく分けて2つの考え方がある。「トップダウン型」では、AIが従うべき価値観や倫理原則を設計者が明示的に指定する（アシモフのロボット工学の3法則を思い浮かべてほしい）。一方、「ボトムアップ型」では、人間の価値観をデータからリバースエンジニアリングし、その価値観に沿ったAIシステムを構築しようとする。もちろん、「人間の価値観」を定義すること、誰がどの価値観を重要視するかを決定すること、人間が意見を異にする場合にどうするかを決定することには困難が伴う。

We need new technical breakthroughs to steer and control AI systems much smarter than us.

Our new Superalignment team aims to solve this problem within 4 years, and we’re dedicating 20% of the compute we've secured to date towards this problem.

Join us! https://t.co/cfJMctmFNj
— OpenAI (@OpenAI) July 5, 2023

チャットボット「ChatGPT」や画像ジェネレーター「DALL-E」などを開発したOpenAI社は、昨年「スーパーアライメント」計画を発表した。この計画は、まず単に人間レベルのAIを構築し、アライメント研究を支援することで、厄介な問題を回避し、将来の超知能AIをアライメントすることを目的としている。

しかし、そのためにはまず、アライメント研究のAIを制御しなければならない。

なぜアライメントが重要なのか？

AIの安全性に対するアライメント・アプローチの提唱者たちは、AIのアライメントを「解決」することに失敗すれば、人類滅亡を含む巨大なリスクにつながる可能性があると言う。

このようなリスクに対する信念の大部分は、「汎用人工知能」（AGI）、大雑把に言えば、人間ができることなら何でもできるAIシステムが近い将来開発され、人間の意見なしにそれ自体を改良し続けることができるという考えから生まれている。このシナリオでは、超知的なAIは、意図的に、あるいは他のプロジェクトの副作用として、人類を滅亡させるかもしれない。

哲学者Blaise Pascalが天国と地獄の可能性だけで、神を信じるに十分であったのと同じように、将来の超AGIの可能性は、AIを「解決」することに全力を注ぐべきだと一部のグループに思わせるに十分である。

この種の推論には多くの哲学的落とし穴がある。また、技術について予測を立てることも非常に難しい。

こうした懸念はさておくとしても、アライメント（ましてや「スーパーアライメント」）は、安全性とAIシステムについて考えるには限定的で不十分な方法である。

AIアライメントの3つの問題点

第一に、「アライメント」の概念がうまく定義されていない。アライメントの研究は通常、「証明可能なほど有益な」システムの構築や、「人類の絶滅を防ぐ」といった漠然とした目標を目指している。

しかし、これらの目標は非常に狭い。超知的なAIがこの目標を達成しても、甚大な被害をもたらす可能性がある。

さらに重要なことは、AIの安全性は単なる機械やソフトウェアにとどまらないということだ。他のテクノロジーと同様、AIは技術的なものであると同時に社会的なものでもある。

One cannot just "solve the AI alignment problem."
Let alone do it in 4 years.

One doesn't just "solve" the safety problem for turbojets, cars, rockets, or human societies, either.

Engineering-for-reliability is always a process of continuous & iterative refinement.
— Yann LeCun (@ylecun) July 6, 2023

安全なAIの実現には、AI開発の政治経済、搾取的な労働慣行、不正流用データの問題、生態系への影響など、さまざまな問題に取り組む必要がある。また、高度なAIの利用法（権威主義的な監視や社会操作の蔓延など）や、その過程で誰が利益を得るのか（既得権益を持つテクノロジー企業）についても、正直に話す必要がある。

最後に、AIの調整を技術的な問題として扱うことは、権力を間違った場所に置くことになる。技術者は、どのようなリスクがあり、どのような価値観が重要であるかを決定すべきではない。

AIシステムを支配するルールは、公開討論と民主的制度によって決定されるべきである。

OpenAIは、ChatGPTの設計中にさまざまな分野のユーザーと協議するなど、この点でいくつかの努力をしている。しかし、より多くの人々からフィードバックを集めるだけで、より大きな問題に取り組む場を与えることなく、AIの安全性を「解決」しようとする取り組みには注意が必要だ。

もう1つの問題は、アライメント研究者のイデオロギー的、人口統計学的な多様性の欠如である。多くの研究者は、シリコンバレーの利他主義者や合理主義者のようなグループとつながりがあり、女性やその他の社会から疎外された人々のグループからの代表が欠けている。

もしアラインメントがなければ、何なのか？

テクノロジーが社会に与える影響は、テクノロジーだけでは対処できない。

「AIアライメント」という考え方は、AI企業を、危害を加える可能性のあるAIシステムの開発者ではなく、不正なAIからユーザーを守る保護者として位置づけている。安全なAIは確かに良い目的ではあるが、「アライメント」に焦点を絞ってアプローチすることは、あまりにも多くの差し迫った潜在的な危害を無視している。

では、AIの安全性について考えるにはどうすればいいのだろうか？社会的・技術的な問題として、まずは既存の危害を認識し、それに対処することである。

アライメント研究が有用でないとは言わないが、その枠組みは役に立たない。そして、OpenAIの「スーパーアライメント」のような無謀な計画は、メタ倫理的な缶詰を1ブロック先まで蹴飛ばして、後で躓かないことを祈るに等しい。

本記事は、Aaron J. Snoswell氏によって執筆され、The Conversationに掲載された記事「What is ‘AI alignment’? Silicon Valley’s favourite way to think about AI safety misses the real issues」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。