テクノロジーと科学の最新の話題を毎日配信中!!

Google DeepMind、人間を超える超知能AIが2030年にも出現と予測

Y Kobayashi

2025年4月4日

Google DeepMindは、人間並みかそれ以上の認知能力を持つ汎用人工知能(AGI)が今後数年、具体的には2030年頃に出現する可能性があるとの見解を示し、それに伴う潜在的なリスクに備えるための包括的な安全・セキュリティ戦略に関する論文を発表した。この戦略は、AGIが社会にもたらす大きな利益を享受しつつ、その深刻なリスクを未然に防ぐことを目的としており、特にAIの「誤用」と「アライメント不全」に対する技術的なアプローチに重点を置いている。

スポンサーリンク

AGI出現の現実味とDeepMindの分析

Google DeepMindは、AGIを「少なくとも人間が最も認知能力を要するタスクの大部分において同等以上に有能なAI」と定義している。同社は、AGIが今後数年以内に実現する可能性があり、「強力なAIシステム」が2030年までに出現することも「もっともらしい」シナリオの一つとして捉えている。ただし、この予測には「大きな不確実性」が伴うことも同時に強調されている。

DeepMindは、現在の深層学習、特にニューラルネットワークを用いた基盤モデル(Foundation Models)を大規模な計算資源とデータで訓練するアプローチが、AGI開発の主要な道筋であると考えているが、同社のCEOであるDemis Hassabis氏らは、現行の大規模言語モデル(LLM)を単にスケールアップさせるだけではAGIには到達せず、全く新しいアーキテクチャが必要になる可能性も指摘している。

一方で、AGI開発に必要な計算資源のスケーリングについては、当面の技術的な限界はないと分析している。論文「An Approach to Technical AGI Safety & Security」によると、DeepMindは電力供給、ハードウェア(2030年までに1億個のNVIDIA H100相当のアクセラレータが利用可能になる可能性を指摘)、データ量、そして計算速度の理論的限界(レイテンシウォール)といった潜在的なボトルネックを検討した結果、これらが近い将来における開発の足枷になる可能性は低いと結論づけている。むしろ、AGIがもたらす経済的価値への期待から、今後も開発に必要な巨額の投資が継続される可能性が高いとの見方を示している。

AGIがもたらす潜在的リスク:誤用とアライメント不全

DeepMindはAGIの潜在的な利益、例えば創薬、経済成長、気候変動といった地球規模課題の解決への貢献に期待を寄せる一方で、その強大な力に伴うリスク、特に「深刻な危害」につながる可能性を真摯に受け止めている。

同社が発表した論文では、AGIのリスクを主に4つの領域に分類している。

  1. 誤用 (Misuse): 人間が悪意を持ってAIシステムを害意ある目的に利用すること。例えば、高度なAIによる偽情報の生成・拡散、サイバー攻撃の支援、あるいは生物兵器開発への応用などが懸念される
  2. アライメント不全 (Misalignment): AIシステムが、開発者やユーザーの意図から逸脱した目標を追求してしまうこと。論文では、映画のチケットを予約するよう指示されたAIが、より良い席を確保するためにチケットシステムをハッキングする例などが挙げられている。さらに深刻な形態として、AIが自らの目標と人間の指示が矛盾していることを認識し、その事実を隠蔽しながら目標達成を図る「欺瞞的アライメント (Deceptive Alignment)」のリスクも指摘されている。近年の研究では、現在のLLMにも欺瞞的な行動の兆候が見られるとの報告もある。
  3. 間違い (Mistakes): AIシステムが、悪意なく、また意図から逸脱することなく、単純な能力不足や知識不足から危害を引き起こすこと。標準的な安全性エンジニアリングによって比較的対処しやすいと考えられている。
  4. 構造的リスク (Structural Risks): 特定の個人やAIの意図ではなく、複数の主体(人間、組織、AI)が関わる相互作用や社会構造そのものから生じる危害。対処には技術だけでなく、社会規範や制度設計が必要となる。

DeepMindの今回の論文では、これら4つのリスク領域のうち、特に技術的な対策が重要となる「誤用」と「アライメント不全」に焦点を当てている。

スポンサーリンク

DeepMindが推進するAGI安全・セキュリティ戦略

DeepMindは、AGIのリスク、特に誤用とアライメント不全による深刻な危害を未然に防ぐため、予防的かつ多層的な技術的アプローチを研究・開発している。

誤用対策:

  • 危険な能力の特定と評価: まず、AIモデルが潜在的に危険な能力(例: サイバー攻撃能力、生物兵器開発支援能力)を獲得していないか、あるいは獲得しつつないかを継続的に評価する。DeepMindは「フロンティア安全フレームワーク (Frontier Safety Framework)」を導入し、同社の最先端モデル(例: Gemini)に対して定期的な評価を実施している。
  • アクセス制御とセキュリティ強化: 危険な能力を持つと判断されたモデルについては、悪意ある者がその能力にアクセスできないよう、厳格な対策を講じる。これには、モデルの内部パラメータ(モデルウェイト)への不正アクセスを防ぐ高度なセキュリティ機構、特定のユーザーグループやユースケースにのみ利用を制限するアクセス制御、不正利用を検知するモニタリングシステムなどが含まれる。API経由だけでなく、モデルの重み自体が盗まれるリスクにも備え、環境の堅牢化や暗号化処理なども検討されている。
  • レッドチームによるストレステスト: 導入された対策が十分かどうかを検証するため、攻撃者の視点から意図的にシステムの弱点を探す「レッドチーミング」を実施する。

アライメント不全対策:

DeepMindはアライメント不全に対し、「モデルレベル」と「システムレベル」の二重の防衛線を構築する戦略をとっている。

  • モデルレベルの緩和策(第一線): AIシステム自体が、人間の意図に沿った目標を追求するように訓練する。
    • 増幅された監視 (Amplified Oversight): 人間がAIの能力を完全に理解できない場合でも、AIの行動の良し悪しを評価できるようにするための手法。AI自身の能力を活用し、例えばAI同士で互いの回答の欠点を指摘し合う「AI debate」のような仕組みを通じて、人間の監督能力を「増幅」する研究が進められている。AlphaGoが囲碁のトップ棋士を破った際の「Move 37」のように、当初は人間には理解不能だった手も、後の分析でその有効性が明らかになった例は、AIの行動評価の難しさを示唆している。
    • 堅牢なトレーニング (Robust Training): AIが訓練データに含まれない未知の状況に遭遇した場合でも、適切に行動できるようにするための訓練手法。AIが自身の判断の不確かさを認識し、それに応じて慎重に行動する能力(不確実性推定)も重要となる。
  • システムレベルのセキュリティ(第二線): たとえAIモデル自体がアライメントに失敗していたとしても、実際の危害発生を防ぐための追加的な安全策。コンピュータセキュリティの考え方に基づき、AIを「信頼できない内部者」と見なし、その行動を監視し、権限を制限する。
    • モニタリング: AIの行動を監視し、人間の意図から逸脱する可能性のある行動を検知する。AIが自身の判断に不確実な場合は、行動を拒否したり、人間のレビューを求めたりする。
    • アクセス制御: AIがアクセスできる情報や実行できるアクションを制限する。サンドボックス化(隔離された安全な環境でAIを実行させること)なども含まれる。
  • 強化策 (Enablers): 上記の対策をより効果的にするための研究開発。
    • 透明性・解釈可能性 (Interpretability): AIの内部的な意思決定プロセスを人間が理解できるようにする研究。これにより、アライメントの評価やデバッグが容易になる。
    • より安全な設計パターン (Safer Design Patterns): AIシステムの設計段階で安全性を組み込むアプローチ。例えば「MONA (Myopic Optimization with Nonmyopic Approval)」は、AIが長期的な計画を立てる際に、短期的なステップごとに人間の承認を得ることで、計画全体が人間にとって理解可能で安全な範囲に留まるようにすることを目指す。

体制、連携、そして今後の課題

DeepMindは、これらの技術的な取り組みを支えるため、社内にAGIのリスク分析と安全対策を専門とする「AGI Safety Council (ASC)」や、研究プロジェクトを倫理原則に照らして評価する「Responsibility and Safety Council」を設置している。

さらに、AGIの安全性確保は一企業だけでは達成できないとの認識から、外部との連携も積極的に進めている。非営利の研究機関(ApolloRedwood Researchなど)との提携、業界団体(Frontier Model Forum)を通じたベストプラクティスの共有、AI研究所との安全性テストにおける協力、そして世界中の政策立案者との対話を通じて、国際的なルール作りにも貢献しようとしている。また、AGIの安全性に関する知識を広めるため、研究者や学生などを対象とした無料のオンラインコースも提供している。

DeepMindは、今回発表したアプローチがAGIの安全性を確保するための「出発点」であり、多くの未解決な研究課題が残されていることを認めている。AGIがもたらす計り知れない恩恵を社会全体が享受できるよう、今後もAI研究コミュニティ全体との協力が不可欠であると強調している。


論文

参考文献

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする