AIがコードを書き、開発者を支援する――。この数年、誰もが信じてきた「生産性革命」のシナリオに、冷や水を浴びせる研究結果が発表された。AIの能力評価を専門とする非営利研究機関METRが実施した厳密な調査によると、経験豊富な開発者が最新のAIコーディングツールを使用した場合、作業完了までの時間が逆に19%も増加したというのだ。さらに驚くべきは、開発者自身は「AIで速くなった」と固く信じていたことである。この「体感」と「現実」の残酷な乖離は何を意味するのだろうか。

AD

「作業が早くなったつもり」が生産性を19%も悪化させた

テクノロジー業界の期待を一身に背負うAIコーディングツール。GitHub Copilotを筆頭に、多くの企業がその導入を進め、開発現場の風景は一変した。しかし、その効果をめぐる議論には、これまで「体感」や断片的な事例報告が多かったのも事実だ。

そんな中、AIの危険な能力評価を専門とする非営利研究機関METR(Model Evaluation & Threat Research)が、このテーマに科学のメスを入れた。彼らが発表した論文「Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity」[PDF]は、衝撃的な結果を報告している。

研究手法:現実世界を映す「無作為化比較対照試験(RCT)」

この研究の特筆すべき点は、その手法の厳密さにある。METRは「ランダム化比較対照試験(Randomized Controlled Trial, RCT)」を採用した。これは、医学の世界で新薬の効果を検証する際に「最も信頼性が高い手法(ゴールドスタンダード)」とされ、原因と結果の関係を特定するのに非常に強力な方法だ。

研究の概要は以下の通りである。

  • 参加者: 平均5年の貢献実績を持つ、16人の経験豊富なオープンソース開発者。彼らが日常的に開発に携わる、大規模で複雑なリポジトリ(平均GitHubスター数23,000以上、コード行数110万行以上)が舞台となった。
  • タスク: バグ修正や機能追加など、開発者が実際に取り組む予定だった246個の「リアルな」タスク。
  • 実験設計: 各タスクはランダムに2つのグループに分けられた。
    1. AI使用グループ: Cursor Pro(AIコーディングに特化したエディタ)と、当時最先端のモデルであったClaude 3.5 SonnetやClaude 3.7 SonnetなどのAIツールを自由に使用できる。
    2. AI不使用グループ(対照群): 生成AIツールの使用が禁止される。
  • 測定: 開発者は作業中の画面を記録し、各タスクの完了にかかった時間を自己申告。これにより、AIの有無が作業時間に与える純粋な影響を測定した。

予想と現実の残酷なギャップ

実験開始前、開発者たちはAIツールを使うことで作業時間が平均24%短縮されると予測していた。これは、AIに対する一般的な期待感を反映した数字と言えるだろう。

しかし、実験結果は無慈悲なものだった。
METRの論文によると、AIを使用したグループは、使用しなかったグループに比べてタスク完了までに平均で19%も多くの時間を要したのだ。予測とは真逆の「生産性低下」という結果である。

なぜ開発者は「遅くなった」ことに気づけなかったのか?

この研究で最も興味深いのは、単なる生産性の低下という事実だけではない。実験終了後、開発者たちにAIの効果について再度尋ねたところ、彼らは「AIのおかげで作業時間が20%短縮された」と回答した。

つまり、実際には19%遅くなっているにもかかわらず、本人は20%速くなったと「感じていた」のである。この約40%もの認識のズレは、「生産性の幻想」とでも呼ぶべき現象だ。AIが瞬時にコードを生成する様子や、面倒な定型作業を肩代わりしてくれるという「楽な感覚」が、実際の作業効率の低下を覆い隠してしまった可能性が考えられる。人間は、ツールの利便性や目先の快適さに、いとも簡単に判断を狂わされてしまうのかもしれない。

なぜAIは熟練開発者を「遅く」したのか?5つの仮説

生産性が向上するどころか、低下するという驚きの結果。その背景には何があるのだろうか。METRの論文では、この「スローダウン効果」に寄与した可能性のある要因を20項目にわたって分析している。その中でも、特に重要と考えられる5つの仮説を深掘りしたい。

仮説1:熟練者の知見 vs AIの提案

今回の被験者は、平均5年にわたって同じオープンソースプロジェクトに貢献してきたベテランたちだ。彼らは、コードベースの構造、暗黙のルール、過去の設計思想といった「暗黙知」を深く理解している。

こうした熟練者にとって、AIの提案は必ずしも最適解ではない。むしろ、AIにタスクの文脈を正確に伝え、生成されたコードがプロジェクトの流儀に合っているかを確認し、必要に応じて修正する作業は、自分で書くよりもかえって手間がかかる「お節介」となり得る。論文でも「開発者のリポジトリへの習熟度が高いこと」がスローダウンの要因として挙げられている。

仮説2:複雑なコードの迷宮とAIの限界

研究で使われたのは、平均10年以上かけて開発され、100万行を超えるコードを持つ大規模で複雑なリポジトリだ。このような環境では、一つの変更が予期せぬ副作用を生むことが少なくない。

AIは、ファイル間の複雑な依存関係や、ドキュメント化されていない設計意図を完全に読み解くことが困難だ。その結果、表面的には正しく見えても、全体最適ではないコードや、既存のアーキテクチャにそぐわないコードを生成してしまうことがある。開発者は、こうした「AIの罠」を見抜いて修正するために、余計な認知負荷と時間を強いられたと考えられる。

仮説3:信頼性の低いコードと「後始末」のコスト

AIは驚くべき速さでコードを生成するが、その品質は常に保証されているわけではない。METRの調査によると、開発者がAIによって生成されたコードの提案を受け入れたのは44%未満だった。

これは、半分以上の提案が不適切、不完全、あるいは単に不要だったことを意味する。開発者は、AIの提案を一つ一つ吟味し、テストし、修正するという「後始末」に多くの時間を費やしていたのだ。論文に掲載された活動時間の内訳を見ると、AI使用時は「コーディング」の時間が減る一方で、「AIのプロンプト入力」「生成物のレビュー」「待機・アイドル」の時間が増加していることがわかる。

仮説4:開発者の「過信」という落とし穴

「AIを使えば速くなるはずだ」という強い期待感(過信)が、かえって非効率な使い方を助長した可能性もある。本来であれば自分で考えた方が速い場面でも、ついAIに頼ってしまい、結果的にプロンプトの試行錯誤やAIの応答待ちで時間を浪費してしまったのではないか。

この「AIへの過剰な期待」は、開発者自身が実験後に「速くなった」と誤認したことからも裏付けられる。ツールへの信頼が、客観的なパフォーマンス評価を曇らせるという、人間心理の普遍的な課題がここにも見て取れる。

仮説5:見過ごされた「対話コスト」

AIコーディングは、一方的な命令ではない。人間とAIの「対話」である。この対話には、AIが理解できるように問題を分解して説明するコスト、AIの質問に答えるコスト、そしてAIが的外れな回答をした際に軌道修正するコストが含まれる。これらの「対話コスト」が、AIがもたらす時間短縮効果を上回ってしまったというのが、この研究結果の最もシンプルな解釈かもしれない。

AD

参加者が語る「AIの罠」:-38%を記録した開発者の告白

これらの仮説を裏付けるように、実際に研究に参加した開発者の一人、Quentin Anthony氏が自身の経験をXで赤裸々に公開し、大きな注目を集めている。驚くべきことに、彼は自身のタスクにおいて「-38%のAIスピードアップ」、つまりAIを使ったことで作業時間が38%も増加してしまった当事者だ。彼の証言は、AIによる生産性低下のメカニズムを生々しく描き出している。

Anthony氏はまず、「AIによる速度向上は、開発者の能力とはほとんど関係がない」と断言する。その上で、生産性低下はLLM(大規模言語モデル)の能力的な限界と、人間側のワークフローにおける「失敗モード」の組み合わせによって引き起こされると分析した。

失敗の理由1:快楽原則の罠:「解決」より「AIとの対話」を優先する心理

人間は、最終的な目標(時間対効果)よりも、目先の楽しさや心地よさを優先してしまうことがある。Anthony氏はこの心理を「解決までの時間ではなく、体感的な楽しさを最適化してしまう」と表現する。

彼は自らの経験を「1時間デバッグする代わりに、AIエディタで5時間タブキーを押し続けた」と自嘲気味に語る。これは、AIが次々とコードを提案してくれるプロセス自体が持つ魅力に囚われ、本来の目的を見失ってしまった状態と言えるだろう。これは先に述べた「生産性の幻想」の核心部分であり、「仮説4:開発者の過信」にも通じる心理的な罠だ。

失敗の理由2:AIのムラと「コンテキストの腐敗」

現在のLLMは、能力に極端なムラがある、とAnthony氏は指摘する。クリーンな学習データが豊富に存在する領域や、ベンチマークで評価されやすいタスクは得意だが、それ以外は驚くほど役に立たないことがあるという。特に「低レベルのシステムプログラミングは、全てのLLMがひどい出来だ」と彼は言い切る。

さらに、「コンテキストの腐敗(Context Rot)」という問題も挙げる。これは、AIとの対話が長くなったり、無関係な情報がコンテキストに含まれたりすると、AIの性能が著しく低下する現象だ。これを避けるためには「頻繁に新しいチャットを開く必要がある」が、これもまた細かな手間と時間を要求する。「仮説2:AIの限界」や「仮説5:対話コスト」を、より具体的に示す証言と言える。

失敗の理由3:「待ち時間」が呑み込む生産性

AIが応答を生成する間の、わずかな待ち時間。これも見過ごせない生産性の阻害要因だ。Anthony氏は「30秒の生成を待っている間に、30分ソーシャルメディアをスクロールしてしまう」という、多くの人が身に覚えのあるであろう問題を指摘する。こうした細かな注意散漫の積み重ねが、トータルでの作業時間を大幅に増加させていた可能性がある。

彼の告白は、AIと人間の協業がいかに複雑で、微妙なバランスの上に成り立っているかを浮き彫りにする。それは単なるツール性能の問題ではなく、人間の心理や習慣といった、より根深い課題を我々に突きつけているのである。

ベンチマーク信仰への警鐘:「実験室」と「現場」のギャップ

これまでの多くの研究やベンチマーク(例えばSWE-Bench)では、AIモデルの優れたコーディング能力が示されてきた。なぜ今回の研究とこれほどまでに結果が異なるのか。

METRは、その理由を「実験室(ベンチマーク)」と「現場(リアルな開発)」の根本的な違いにあると指摘する。

従来のベンチマークで使われるタスクの多くは、

  • 自己完結型: 他のコードへの依存が少なく、文脈を理解する必要がない。
  • 明確なゴール: 解くべき問題が明確に定義されている。
  • アルゴリズムによる自動評価: コードの品質や保守性よりも、正解を出せるかどうかが重視される。

これに対し、今回の研究で扱われたのは、複雑な依存関係と暗黙のルールが絡み合う、現実世界のタスクだ。この「ギャップ」こそが、ベンチマークスコアの向上が必ずしも実世界での生産性向上に直結しない理由であると、METRは示唆している。現実の開発現場の複雑さを考慮しない評価手法は、AIの真の能力を見誤らせる危険性をはらんでいるのだ。

AD

この研究が「示さない」こと

この衝撃的な結果を前にして、「AIはやはり役に立たない」と結論づけるのは早計だ。METR自身も、結果を過度に一般化しないよう釘を刺している。

  • 全ての開発者に当てはまるわけではない: この研究はあくまで「経験豊富な」開発者が「大規模で複雑な」プロジェクトに取り組む、という特定の条件下での結果である。初心者が新しい技術を学ぶ場合や、小規模なプロジェクト、あるいは迅速なプロトタイピングにおいては、AIツールが依然として強力な助けとなる可能性は十分にある。
  • AIの進化は止まらない: 研究で使われたのは2025年初頭のモデルだ。AIの進化は日進月歩であり、数ヶ月後にはこの結果が過去のものとなっているかもしれない。
  • 使い方の問題: より効果的なプロンプトの技術や、特定のドメインに特化したファインチューニングなど、AIをより賢く使う方法を編み出せば、生産性向上を実現できる可能性は残されている。

AIと共存する未来へ、開発者に求められる新たなスキル

この研究は、AIに対する我々の楽観的な見方に一石を投じた。しかし、それは決して悲観的な未来を示すものではない。むしろ、AIと人間が真に効果的な協業関係を築くための、重要な道しるべと捉えるべきだろう。

この結果から、未来の開発者に求められるスキルセットが浮かび上がってくる。

  1. AIマネジメント能力: AIを単なるツールではなく、有能だが経験の浅い「部下」や「アシスタント」と捉え、その能力を最大限に引き出すマネジメント能力が不可欠になる。タスクを適切に分解して指示し、AIの進捗を管理し、最終的な成果物の品質に責任を持つ。これはもはや、プロジェクトマネージャーや建築家(アーキテクト)のスキルに近い。
  2. 批判的思考と健全な懐疑心: AIが生成したコードを鵜呑みにせず、常に批判的な視点でレビューする能力。なぜこのコードが生成されたのか、他に良い方法はないのか、長期的な保守性に問題はないかと自問する姿勢が、AI時代の品質保証の鍵となる。
  3. 高度な問題解決能力: AIが苦手とする、定義の曖昧な問題や、複雑なシステム全体の設計、そして全く新しいアーキテクチャの創造。こうした領域こそが、人間の開発者が価値を発揮し続ける聖域となるだろう。

AIコーディングツールの登場は、開発者から「コードを書く」という作業を奪うのではなく、その役割をより高度で創造的なものへと昇華させる触媒なのかもしれない。今回のMETRの研究は、その過渡期に生じた「生産性の谷」を浮き彫りにした貴重な報告と言える。我々は今、「速さ」という単純な指標だけでは測れない、新しい時代の「生産性」とは何かを問い直す時期に来ているのではないだろうか。


論文

参考文献