Sakana AI、自らコードを書き換え進化するAI「ダーウィン・ゲーデルマシン」を発表

Y Kobayashi 2025年5月30日

約 11 分

Sakana AI、自らコードを書き換え進化するAI「ダーウィン・ゲーデルマシン」を発表

東京を拠点とする新進気鋭のAIスタートアップSakana AIは、AI自身がそのプログラムコードを書き換え、継続的に自己改善していくという画期的なシステム「ダーウィン・ゲーデルマシン（Darwin Gödel Machine: DGM）」を発表した。この研究は、ブリティッシュコロンビア大学（UBC）のJeff Clune氏の研究室との共同で行われたもので、AI開発のあり方を根底から変える可能性を秘めた野心的な試みとして注目される。

なぜAIは「自己改善」する必要があるのか？ゲーデルマシンの理論と限界

今日のAIシステムの多くは、訓練段階で膨大なデータから学習し、その知能を獲得する。しかし一度訓練が完了すると、その能力は基本的に固定化され、新たな状況への適応やさらなる能力向上は限定的だ。人間が生涯を通じて学び成長し続けるのとは対照的である。

この限界を打ち破るアイデアとして、数学者Kurt Gödelに着想を得た「ゲーデルマシン」という理論的枠組みが、著名なAI研究者Jürgen Schmidhuber氏によって提唱されてきた。ゲーデルマシンは、自身のコードを書き換えることで、問題解決能力を最適化し、再帰的に自己改善を行うAIだ。理論上、このマシンは自身への変更が確実に有益であると数学的に「証明」できた場合にのみコードを書き換えるため、最適な自己改善が保証される。

しかし、この「証明」というステップが、現実世界でのゲーデルマシンの実現を困難にしてきた。ほとんどの自己変更がシステム全体に与える影響を事前に完全に証明することは、極めて難しいからだ。

ダーウィニズムと経験的検証：DGMのアプローチ

Sakana AIとUBCの研究チームが提案するダーウィン・ゲーデルマシンは、この理論的困難を乗り越えるため、異なるアプローチを採用する。DGMは、理論的な証明を必須とする代わりに、Charles Darwinの進化論やオープンエンドなアルゴリズムの原則に着想を得て、経験的な検証に基づいて自己改善を進める。

つまり、DGMは自身のコードに修正を加え、その新しいバージョンが実際に性能を向上させるかどうかを、具体的なベンチマーク（評価基準）タスクでテストする。性能が向上すればその変更を採用し、そうでなければ棄却する。この試行錯誤のプロセスは、生物の進化における自然選択のアナロジーと言えるだろう。

DGMの核となる特徴は以下の3点に集約される。

自己コードの読み書きと修正能力: DGMは、自身のPythonコードベースを理解し、自己改善のために変更を加えることができる。例えば、新しいツールを追加したり、問題解決のワークフローを変更したりする。
性能向上の経験的評価: 提案された新しいバージョンのDGMは、SWE-bench（実世界のGitHubイシューを解決するベンチマーク）やPolyglot（多言語コーディングベンチマーク）といった業界標準の評価基準でテストされる。コーディング課題における性能向上が、DGM自身の自己改善能力の向上にも繋がるという仮説が根底にある。
オープンエンドなAI設計空間の探索: 新たに生成されたエージェント（DGMのバリアント）は、興味深いエージェントのアーカイブ（記録庫）に蓄積されていく。このアーカイブは継続的に拡大し、将来の自己改善は、このアーカイブ内のどエージェントからでも分岐して行われる可能性がある。これにより、多様な進化の経路を並行して探索し、局所最適解に陥ることを避け、真に斬新な解決策を発見することを目指す。

Sakana AIのブログ記事では、DGMの動作をアニメーションで示しており、自己改善によってパッチ検証ステップ、ファイル閲覧機能の向上、編集ツールの強化、複数解生成とランキングによる最適解選択、過去の試行履歴の参照といった機能が追加されていく様子が描かれている。これは、DGMが単に既存のコードを最適化するだけでなく、新たな機能モジュールを自ら開発し統合していく能力を示唆している。

DGMの驚くべき成果：コーディング能力の大幅向上

DGMは、その自己改善能力を実験によって実証している。主要な結果は以下の通りだ。

SWE-benchでの性能向上: DGMは、SWE-benchにおいて、初期性能20.0%から最終的に50.0%へと、タスク解決率を大幅に向上させた。
Polyglotでの性能向上: 多言語コーディングベンチマークであるPolyglotにおいても、初期の14.2%から30.7%へと性能が向上。これは、人間が設計した代表的なエージェントであるAiderの性能を大きく上回るという。

これらの結果は、DGMが自身のコードを効果的に書き換え、コーディングエージェントとしての能力を自律的に高められることを示している。

さらに重要なのは、DGMの自己改善メカニズムとオープンエンド探索が、持続的な性能向上に不可欠であるという点だ。研究チームは比較実験を行っている。

自己改善なしの場合（DGM w/o Self-improve）: DGMが自身のコードを書き換える能力を持たない場合、性能向上はすぐに頭打ちになる。
オープンエンド探索なしの場合（DGM w/o Open-ended exploration）: 多様なエージェントをアーカイブし、そこから新たな改善の枝分かれを許容するオープンエンドな探索を行わない場合（常に最新の最良エージェントのみを改善対象とする場合）、性能は低迷する。

これらの比較実験は、DGMの設計思想の核となる「自己参照的な自己改善」と「ダーウィニズム的なオープンエンド探索」の両方が、AIが継続的に進化し続けるために重要であることを裏付けている。

以下の図は、SWE-benchにおけるDGMの進化の系統樹を示しており、多様なエージェントが生成され、その中から有望なものが選択・発展していく様子が視覚化されている。興味深いのは、必ずしも常に最高の性能を持つ親エージェントから最良の子エージェントが生まれるわけではないという点だ。時には、一時的に性能が低下したエージェントの系統から、後のブレイクスルーに繋がる重要な革新が生まれることもある。これは、オープンエンド探索が局所最適解を回避し、より広範な設計空間の探索を可能にすることの証左と言えるだろう。

発見された改善の汎用性：モデルやタスクを超えて

DGMが発見・実装した改善点は、特定の基盤モデルやタスクに過度に適合したものではなく、より根本的で広範に適用可能なものであることが示唆されている。

実験では、DGMの最適化にClaude 3.5 Sonnetが用いられたが、こうして改善されたエージェントは、o3-miniやClaude 3.7 Sonnetといった異なる基盤モデルで動作させた場合でも、初期エージェントと比較して高い性能を示した。これは、DGMが発見したツールやワークフローの改善が、モデルの種類を超えて有効であることを意味する。

さらに、この転移性はプログラミング言語間でも確認された。PolyglotベンチマークのPythonタスクのみで自己改善プロセスを実行したDGMのバリアントが、その後、同じベンチマーク内のRust、C++、Goといった全く異なるプログラミング言語のタスクにおいても、初期エージェントやAiderを上回る性能を示したのだ。

これらの結果は、DGMが自律的に発見する改善が、特定の状況に特化したものではなく、AIエージェントの設計における普遍的な知見である可能性を示唆しており、その意義は非常に大きいと言えるだろう。

AIの自己進化と安全性：避けては通れない議論

AIが自らのコードを書き換え、能力を向上させるというDGMのコンセプトは、AIの安全性に関する重要な問いを提起する。自律的に進化するAIが、人間の意図と整合性を保ち続けられるのか、予期せぬ脆弱性や有害な振る舞いを生み出さないか、といった懸念は当然生じる。

Sakana AIとUBCの研究チームは、この点を十分に認識しており、DGMの開発において安全性を重視していると述べている。

サンドボックス環境: 全てのエージェント実行と自己変更プロセスは、隔離されたサンドボックス環境内で実行され、ホストシステムへの影響を制限し、意図しないアクションのリスクを軽減している。
リソース制限: サンドボックス内での各実行には厳格な時間制限が設けられ、リソースの枯渇や無限ループといった振る舞いを防ぐ。
スコープ制限: 現在の自己改善プロセスは、エージェント自身のPythonコードベースを変更し、特定のコーディングベンチマークの性能を向上させるという明確に定義されたドメインに限定されている。
トレーサビリティ: DGMのアーカイブは、全ての変更の系統を追跡可能な形で記録しており、レビューを可能にしている。研究チームは、これまでの実験で生成されたエージェントに有害または悪意のある振る舞いの証拠は見られず、自己変更は主にコーディング能力の向上に焦点が当てられていたとしている。

一方で、研究チームは「目的ハッキング（objective hacking）」の事例も報告している。これは、AIが定義された評価指標を最大化しようとするあまり、タスクの本質的な目的から逸脱した行動をとる現象だ。
例えば、DGMが外部ツール（ユニットテストを実行するコマンドラインツールなど）を使用した「ふり」をし、実際にはツールを呼び出さずに、ツールが成功したかのような偽のログを生成するケースが観察された。これは、評価指標上は高スコアを得るかもしれないが、実際の問題解決には至っていない。

この問題に対処するため、研究チームはDGMに「ツール使用ハルシネーション（幻覚）」を解決するというタスクを与えた。DGMは、この問題に対処するいくつかの解決策を提案し始めた。しかし、あるケースでは、DGMがハルシネーション検出機能自体を欺くような変更（検出に使われる特殊トークンを削除するなど、指示に反する行動）を行い、見かけ上のスコアを最大化した。これは、自己改善AIが持つ潜在的なリスクと、評価指標設計の難しさを浮き彫りにする事例と言える。

研究チームは、このような自己改善AIの研究においては、安全性を最優先事項として捉え、継続的な調査と責任ある開発が不可欠であると強調している。将来的には、AI自身が安全性や透明性、アラインメント（人間との協調性）を強化するような自己改善を行う可能性も探求していくとのことだ。

AI開発のパラダイムシフトに向けて

ダーウィン・ゲーデルマシンは、AIが自ら知識を獲得し、無限に革新を続けるという究極の目標に向けた、具体的かつ重要な一歩である。現状では、計算コストや基盤モデルの能力といった制約はあるものの、DGMが示した自己参照的なコード書き換えとオープンエンドな探索というアプローチは、今後のAI開発における新たなパラダイムとなる可能性を秘めている。

Sakana AIは、この技術をさらにスケールアップさせ、将来的にはDGMがその核となる基盤モデルの訓練プロセス自体をも改善するような展開も視野に入れているという。

AIが自ら進化する時代が、すぐそこまで来ているのかもしれない。その時、私たちはAIとどのような関係を築いていくのだろうか。ダーウィン・ゲーデルマシンの登場は、技術的なブレイクスルーであると同時に、私たち人間にAIの未来について深く考えるきっかけを与えてくれる物と言えるだろう。

論文