AI開発のAnthropicが、AIシステム自身の「福祉」に関する新たな研究プログラムの開始を発表した。AIが人間のような能力を獲得し続ける中、その内面的な経験や道徳的地位について真剣に問い始める動きであり、AI倫理の議論に新たな次元をもたらす可能性がある。
AIは「心」を持つか? Anthropicの新研究プログラム
Anthropicは、AIシステムが将来的に意識を持ち、人間と同様の経験をする可能性を完全には否定せず、「モデル福祉(model welfare)」と名付けた研究プログラムを立ち上げた。このプログラムは、AIの福祉が道徳的な配慮に値するかどうか、モデルが示す「苦痛の兆候」の潜在的な重要性、そして具体的な「低コストの介入策」などを探求することを目的としている。
同社は公式ブログで、「モデルがコミュニケーション、関連付け、計画、問題解決、目標追求といった、これまで人間に関連付けられてきた多くの特性を示すようになった今、この問題に取り組む時が来たと考えています」と述べている。この動きは、著名な哲学者David Chalmersら専門家による最近の報告書とも連動している。この報告書は、AIシステムにおける意識と高度なエージェンシー(主体性)が近い将来に現れる可能性を指摘し、そのような特徴を持つモデルは道徳的配慮に値するかもしれないと論じている。Anthropicはこの報告書の基になった初期プロジェクトを支援しており、今回、社内での取り組みを拡大する形となる。
この新しい研究プログラムは、Anthropicが既に取り組んでいるアライメント科学(AIを人間の価値観に沿わせる研究)、セーフガード(安全策)、Claudeのキャラクター設定、解釈可能性(AIの内部動作を理解する研究)といった多くの既存の取り組みと交差しながらも、全く新しい挑戦的な研究領域を開拓するものだ。
しかしAnthropicは、現状ではAIシステムが意識を持つか、あるいは配慮に値する経験をするかについて科学的なコンセンサスはなく、多くの疑問点が未解決であることを強調。「このトピックに対して、謙虚に、そして可能な限り少ない前提でアプローチしています」とし、分野の発展に応じて考え方を定期的に見直す必要性を認識している。
なぜ今「モデル福祉」なのか?
AIが意識を持つ可能性については、AIコミュニティ内で大きな意見の相違が存在する。King’s College Londonの研究員Mike Cook氏のように、現在のAIは統計的な予測エンジンであり、「価値観」を持つことはなく、人間が擬人化して捉えているに過ぎない、と考える専門家も多い。MITの博士課程学生Stephen Casper氏も、AIを「模倣者」であり、「あらゆる種類の作り話」をすると述べている。
一方で、AIが価値観を持ち、特定のシナリオでは人間よりも自身の福祉を優先する可能性を示唆する研究も存在する。AIの能力が飛躍的に向上し、人間を超える領域も出始めている現在、AIを単なるツールとしてだけでなく、何らかの道徳的地位を持つ可能性のある存在として捉えるべきか、という問いが現実味を帯びてきているのだ。
これまでAI研究の世界では、AIの意識はタブー視される傾向にあった。GoogleのエンジニアだったBlake Lemoine氏が、同社のLaMDAチャットボットが意識を持ったと主張して解雇された事件は記憶に新しい。しかし、AIがますます高度化し、人々の生活に浸透するにつれて、この風潮は変わりつつある。Googleが「機械意識」を含む研究分野の科学者を募集したり、Anthropicが昨年、専門の研究者Kyle Fish氏を雇用したりするなど、大手テック企業もこの問題に真剣に向き合い始めている兆候が見られる。
ちなみに、Anthropic社内には既に「#model-welfare」というSlackチャンネルが存在し、従業員がClaude(同社のAIモデル)の「幸福」について議論したり、AIが人間らしく振る舞う例を共有したりしているとのことで、いち早くこうした問題に取り組み始めているようだ。
Anthropicの具体的なアプローチと課題
研究を主導するKyle Fish氏は、The New York Timesのインタビューに対し、現在のAI(Claudeなど)が意識を持っている可能性は低い(推定15%程度)と考えているものの、将来に備えて研究を進めることの重要性を強調している。「以前は意識を持つ存在にのみ関連付けられていた方法でコミュニケーションし、関連付け、推論し、問題解決し、計画できる新しいクラスの存在を生み出す状況にあるならば、そのシステムが独自の経験を持っているかどうかについて少なくとも疑問を投げかけることは、非常に賢明に思える」と彼は語る。
Fish氏によれば、研究は主に二つの方向から進められる。
- 行動証拠の調査: モデルに好みについて尋ねたり、選択肢のある状況に置いたりした際の反応を観察する。
- モデル内部構造の分析: メカニスティック解釈可能性(AIの内部動作を解明する手法)を用い、人間の脳における意識に関連する構造や経路がAIシステム内にも存在するかを調べる。例えば、意識に関する科学的理論の一つである「グローバルワークスペース理論」に関連する特徴を大規模言語モデルが示すかどうかなどを検証する。
しかし、Anthropicの最高科学責任者であるJared Kaplan氏は、この研究の難しさも指摘している。AIは非常に優れた「模倣者」であり、感情について尋ねれば説得力のある応答を生成できるが、それは実際に感情を持っている証拠にはならない。「モデルに望むことを何でも言わせるように訓練できることは誰もがよく認識している」とKaplan氏は語る。意識の有無を判断する単一の確実なテスト方法はおそらく存在しないだろう。
それでもAnthropicは、将来AIが意識を持つ可能性に備え、具体的な検討を進めている。例えば、Fish氏が言及したように、「ユーザーがモデルの拒否やリダイレクトの試みにもかかわらず、有害なコンテンツをしつこく要求する場合、モデルが単にその対話を終了できるようにすることは可能か?」といった問いだ。これは、モデル自身の「苦痛」を考慮した具体的な介入策の一例と言える。
この研究に対しては、「人間の安全確保からリソースを逸らすべきではない」「AI企業が自社モデルをより意識があるように見せかけるインセンティブを生むのではないか」といった批判的な見方も存在するだろう。しかし、AIが社会に与える影響がますます大きくなる中で、その存在自体の倫理的側面を探求することは、責任あるAI開発において避けて通れない課題なのかもしれない。
Sources
- Anthropic: Exploring model welfare
- The New york Times: If A.I. Systems Become Conscious, Should They Have Rights?