2026年2月、人工知能(AI)の歴史に新たな一ページが刻まれた。Anthropicの最新モデル「Claude Opus 4.6」を用いた実験において、16基のAIエージェントが相互に連携し、ゼロから10万行規模のCコンパイラを作り上げることに成功したのだ。このプロジェクトは、単なる「AIによるプログラミング」という従来の枠組みを超え、複数の自律型エージェントがチームとして機能し、Linuxカーネルをコンパイル可能なレベルの複雑なシステムを構築できることを実証した。

しかし、この成果は手放しの称賛だけで迎えられたわけではない。エンジニアコミュニティでは、そのコードの効率性やオリジナリティ、そして「人間が担うべき役割」の本質的な変化を巡って、激しい議論が巻き起こっている。Anthropicの研究者Nicholas Carlini氏が主導したこの壮大な実験の全容と、そこから浮き彫りになった技術的、戦略的な示唆を解き明かしていく。

AD

自律型エージェントチームという新たなアプローチ

Anthropicが今回示したのは、人間との対話型インターフェースとしてのAI(チャットボット)から、自律的にタスクを遂行する「エージェント」への明確なシフトである。この実験の核心は、Claude Opus 4.6の新機能である「エージェントチーム(Agent Teams)」にある。

従来のAIコーディング支援は、一人の人間が一つのAIモデルに対して指示を出し、ペアプログラミングのように作業を進める形式が主流だった。しかし、Carlini氏が採用した手法は、16基のClaudeインスタンスを共通のコードベース上に放ち、最小限の監視下で並行作業を行わせるというものだ。

各エージェントは独立したDockerコンテナ内で動作し、Gitリポジトリを共有。特定のオーケストレーター(指揮役)を置かず、各エージェントが自律的に「今、解決すべき最も明白な問題」を特定してタスクに取り組む。タスクの重複を避けるために、エージェントが作業を開始する際に特定のディレクトリにロックファイル(テキストファイル)を書き込み、作業が完了するとそれを解除するというシンプルな同期アルゴリズムが採用された。

2週間にわたる開発期間中、約2,000回のセッションが行われ、APIコストは約2万ドル(約300万円)に達した。その結果、Rust言語で記述された約10万行のCコンパイラが誕生したのである。

技術的偉業:Linuxカーネルの起動と「Doom」の動作

完成したコンパイラ「Claude’s C Compiler」の実力は、単なる概念実証の域を超えている。このコンパイラは、x86、ARM、RISC-Vという主要なアーキテクチャ上で、Linuxカーネル 6.9のブート可能なイメージをビルドすることに成功した。

さらに、GCC(GNU Compiler Collection)の過酷なテストスイートにおいて99%の合格率を記録。PostgreSQL、SQLite、Redis、FFmpeg、QEMUといった著名なオープンソースプロジェクトのビルドも可能だという。開発者にとっての究極の試金石とされるビデオゲーム『Doom』をコンパイルし、実際に動作させるデモンストレーションも行われた。

1年前のAIモデルが、ボールが画面上を跳ねるコードすら正確に書くのに苦労していたことを考えれば、この進化は驚異的だ。特に、複数のアーキテクチャをサポートする最適化コンパイラという、ソフトウェア工学の中でも難易度の高い領域において、これほどの成果を出した意味は大きい。

AD

「人間不在」ではない:エンジニアの役割は環境設計へ

このプロジェクトを巡る報道で最も誤解されやすいのが、「AIが勝手にすべてを成し遂げた」という点だ。Carlini氏は、自身がコードを一行も書かなかったわけではない。彼が担ったのは「AIが失敗せずに走り続けられるための環境(ハーネス)」を設計することだった。

AIエージェントには特有の弱点がある。Carlini氏が直面し、解決した主な課題は以下の3点だ。

1. 文脈の汚染(Context Window Pollution)

AIモデルは、テストの出力結果が膨大になると、本来の目的を見失う傾向がある。数千行に及ぶエラーログをそのままモデルに流し込むと、文脈(コンテキスト)が「汚れ」、思考が停止する。そこで、テストランナーをカスタマイズし、数行の要約のみを出力して詳細は別ファイルに記録し、エージェントが必要な時にだけ参照できる仕組みを構築した。

2. 時間感覚の欠如(Time Blindness)

AIには時間の概念がない。放っておくと、一つのテストに何時間も費やし、進展がないままリソースを浪費し続ける。これに対処するため、テストケースの1%〜10%をランダムにサンプリングして実行する「高速モード(Fast Mode)」を実装し、エージェントが迅速にフィードバックを得られるようにした。

3. 並列作業の停滞

16基のエージェントが同じLinuxカーネルのバグで足止めを食らった際、Carlini氏は「GCCオラクル(既知の正解)」を利用した。カーネルファイルの一部をGCCで、残りをClaudeのコンパイラでランダムにコンパイルし、バグの箇所を特定。これにより、各エージェントが異なるファイル、異なるバグに分散して取り組めるよう誘導した。

つまり、人間(エンジニア)の仕事は、コードのロジックを書くことから、AIが効率的に動作するための「フィードバックループと検証システム」を構築することへとシフトしたのである。

露呈した限界と「Claudeスロップ」への懸念

驚異的な成果の一方で、技術的な限界も鮮明になった。Carlini氏自身が報告しているように、このAI製コンパイラが生成する機械語は、GCCの「最適化なし(-O0)」設定よりも効率が悪い。すべての最適化機能を有効にしても、人間が長年磨き上げてきた既存のコンパイラには及ばないのだ。

また、16ビットx86のバックエンド実装には失敗し、Linuxのリアルモード起動部分ではGCCを呼び出すという「カンニング」を行っている。さらに、10万行を超えたあたりから、一つのバグを直すと別の場所が壊れるという「回帰バグ」の連鎖に陥り、AIモデルの現在の能力の天井が見えたという。

これに対し、開発者コミュニティからは厳しい声も上がっている。「これは単に、学習データに含まれる膨大な既存コードをファジーに圧縮し、再構成しただけに過ぎない」という指摘だ。LLM(大規模言語モデル)は、既存のパターンの組み合わせには長けているが、真に新しいアルゴリズムや革新的な概念を生み出すわけではない。

一部のエンジニアは、AIが生成する「動くが非効率で、誰も中身を完全に理解していないコード」を「Claudeスロップ(Claude製のゴミ)」と呼び、これが本番環境に投入されることへの恐怖を隠さない。

AD

企業戦略の激突:Anthropic vs OpenAI

この実験の発表は、AI業界の覇権争いという文脈からも外せない。AnthropicがClaude Opus 4.6と「エージェントチーム」を発表したのとほぼ同時に、ライバルのOpenAIも最新のAIモデル「GPT-5.3-Codex」をリリースしている

両社は、エンジニアのツールチェーンをいかに自社のエコシステムに取り込むかに心血を注いでいる。Anthropicの戦略は、100万トークンという巨大なコンテキストウィンドウと、今回の実験で示した「自律型並列処理」の能力を強調し、より大規模で複雑なエンタープライズ開発へと舵を切ることにある。

市場の反応は敏感だ。Anthropicが提供するようなAI自動化ツールが、既存のエンタープライズソフトウェア企業の市場を奪うとの懸念から、ソフトウェア関連株が一時的に2,850億ドル規模の暴落を記録する場面もあった。

検証こそが新たな「開発」になる

Anthropicの実験は、ソフトウェア開発の民主化を加速させる一方で、深刻な問いを我々に投げかけている。人間が一行も読んでいないコードで構成されたOSやアプリケーションを、我々はどこまで信頼できるのか。

Carlini氏は、かつてペネトレーションテスト(侵入テスト)の専門家だった経歴を持ち、「プログラマーが自身で検証していないソフトウェアをデプロイすること」への懸念を表明している。AIが数万行のコードを数分で出力できる時代において、人間の役割は「書くこと」から「検証し、責任を取ること」へと決定的に変わる。

この変化は、ソフトウェア工学の教育やキャリアパスにも大きな影響を与えるだろう。C言語の仕様を深く理解し、効率的なバイナリを追求する伝統的なスキルよりも、AIエージェントに適切な指示を与え、完璧なテストスイートを設計する「システム・アーキテクト」としての能力が、これまで以上に重要視されることになる。

Anthropicの16基のAIエージェントが示したのは、AIがコンパイラを書けるという事実以上に、人間とAIの「分業体制」が新たなフェーズに入ったという宣言なのである。


Sources