OpenAI、Codexを「OS全体を自律操作するエージェント」へと進化——Claude Codeに対抗する”スーパーアプリ”への第一歩

OpenAIは、ソフトウェア開発者向けAIツールであるCodexデスクトップアプリに対して大規模なアップデートを実施し、旧来のコード記述支援ツールを脱却し、「コンピュータ全体を自律的に操作するエージェント（Super App）」へと飛躍的進化を遂げさせた。今回の刷新では、バックグラウンドでの自律的なアプリケーション操作、内蔵ブラウザによるプレビュー機能、GPT-Image-1.5による画像生成、そして記憶（Memory）と自動化機能が統合された。

Anthropicの「Claude Code」が開発者コミュニティで絶賛される中で投下されたこのアップデートは、AIによるソフトウェア開発のパラダイムをコードの生成から、ソフトウェア開発ライフサイクル（SDLC）全体の文脈処理と実行へと移行させるものである。

開発者の時間はコード記述以外に奪われている

現在、Codexは毎週300万人以上の開発者に利用されている。しかしOpenAIの調査によれば、Codex上で行われるタスクのほぼ半数は、純粋なコーディングそのものではなく、ドキュメントの検索、SlackやJIRAでの文脈収集、環境構築、PR（プルリクエスト）のレビューといった周辺業務に費やされている。

現代のソフトウェア開発において、エンジニアは複数のツール（Slack、Notion、GitHub、JIRA、CircleCIなど）の間を絶えず往復しながら、断片化された文脈を自身の脳内で統合しなければならない。このコンテキスト・スイッチングの負担が生産性を著しく阻害する要因であった。「開発者の時間をいかにして純粋な問題解決や価値創造に振り向けるか」という難題に対し、これまでのAIアシスタントはエディタ内に限定された受動的なツールであった。

同時に、競合であるAnthropicが提供する「Claude Code」や、デスクトップビューでの「Claude Cowork」などの新機能が市場で熱狂的に支持され、開発者向けAIアシスタントの覇権争いは急激に激化している状況にあった。

サンドボックス化されたAIアシスタントの限界

これまでのAIコーディング環境は、IDE（統合開発環境）やブラウザのタブといった「サンドボックス（隔離された領域）」に閉じ込められていた。そのため、AIがコードを生成しても、それを別のアプリケーションにペーストしたり、ブラウザで動作確認を行ったり、エラーログをターミナルからコピーしてAIに渡したりする作業は、依然として人間の手作業として残されていた。

AnthropicのClaude CodeはCLI上で高度な自律性を発揮し「ルーチン」機能などを実装しているが、依然としてアプリケーションを跨いだ視覚的な操作や、バックグラウンドでのOSレベルの介入には限界があった。真のエージェントとして機能するためには、チャットウィンドウの枠を飛び出し、人間と同じようにOS上のあらゆるツールを直接操作できる「視覚と手（カーソル）」が必要とされていた。

AIはいかにしてOSレベルの自律性を手に入れたのか

では、OpenAIは今回の Codex アップデートで、この「隔離の壁」をどのように突破したのだろうか。API連携の拡張を超え、コンピュータ全体を操作するエージェントとしての実用性をいかにして確立しているのか。また、人間の作業を妨げずにAIを自働化する仕組みはどのように機能するのだろうか。

バックグラウンドで稼働する「自律カーソル」とエコシステムの統合

OpenAIが導き出した解は、CodexにOS上のあらゆるアプリケーションに対する「視覚」と「直の操作権限」を与えつつ、それを完全にバックグラウンドで並行処理させるアーキテクチャの導入である。

macOS向けに実装された「バックグラウンド・コンピュータ・ユース」

今回のアップデートの最大の技術的飛躍は、macOS向けに初期導入された「Computer Use」機能である。Codexは、画面上の要素を視覚的に認識し、独自のカーソルを用いてクリックやタイピングを直接行うことが可能となった。

特筆すべきは、この操作がユーザーの現在のデスクトップを乗っ取るのではなく、バックグラウンドで実行可能な点である。人間がメインウィンドウでコードを書きながら、裏側でCodexが自律的にフロントエンドの変更をテストしたり、JIRAのチケットをトリアージしたりするなど、複数のエージェントワークフローを並行して実行できる。この機能により、APIを持たないレガシーアプリケーションや、特定の企業内ツールであっても、AIがGUIを通じて直接操作することが可能になる。

デスクトップアプリ内のエコシステム統合

OSレベルの操作に加え、Codexアプリ自体がSDLC全体をカバーする統合ワークスペースとして大幅に強化された。

アプリ内に直接ブラウザ環境が組み込まれたことで、開発者はプレビュー画面上のDOM要素を直接指し示してコメントを残し、Codexに対して「このボタンの余白を調整して」といった精緻な指示を出せるようになった。加えて、強力な画像生成モデル（GPT-Image-1.5）が統合されており、ウェブサイトのモックアップやゲームの数百に及ぶアセットなどを、一貫したスタイルで同一ワークフロー内で生成・反復させることが可能である。

機能の統合は視覚面にとどまらない。PDFやスプレッドシートなどのリッチプレビュー機能が拡充されたほか、GitLab、CircleCI、Atlassian Rovo、Notion、Slackなどを接続する90以上の新プラグイン（MCPサーバーを含む）が提供され、各種ツールから必要な文脈を横断的に収集できる強力な基盤が整った。

継続的なエージェント動作：「自動化」と「記憶」

Codexは単発のタスクをこなす役割を終え、一連の継続的な作業を記憶し、未来に向けて自ら計画する能力を獲得した。

「Heartbeat Automations」と呼ばれる機能により、Codexは自身で将来のタスクをスケジュールし、指定したタイミングで目を覚まして長期間にわたるタスクを再開できる。Slackチャンネルの監視や、継続的なドキュメントの更新などを自律的に実行させる仕組みである。毎日の業務開始時には、SlackやNotion、Google Docのコメントなどから情報を横断収集し、「今日優先的に対処すべき事項」のブリーフィングレポートを提示する。

さらに、プレビュー版として実装された「Memory」機能は、開発者のプロジェクト内のコンテキストや個人的なコーディングの好み、情報収集のプロセスなどを長期間記憶する。これによって、新しいセッションのたびに冗長なカスタムプロンプトを入力する手間が不要となり、AIは過去の経験を踏まえてよりプロアクティブな提案を行うようになる。

開発ツールの枠を超え「スーパーアプリ」へ

今回の発表における関係者向けブリーフィングにおいて、Codexエンジニアリング責任者のThibault Sottiauxは「Codexアプリを通じて、我々は事実上のスーパーアプリを構築している」と明言した。ChatGPTのような汎用チャットボットではなく、SDLCの基盤であるCodexこそが、あらゆるツールを連携させる究極のプラットフォームになり得るという見立てである。

この動きは、ソフトウェア開発という極めて複雑かつ多層的なナレッジワーク環境が、次世代OSやSuper Appの最適な実験場であることを示している。AIの価値の重心は、コードを正確に書く能力（LLMの基本性能）から、無数のツールやコンテキストから意図を汲み取り、OSレベルで直接実行に移す「エージェントとしての調整能力（Orchestration）」へと完全にシフトした。

AnthropicのClaude CodeやRoutines機能との激しい攻防が続く中、OpenAIは「バックグラウンドでのGUI操作」と「広範なプラグインによる文脈収集」という物理的・論理的なアプローチを組み合わせることで、強固な優位性の構築を図っている。現在利用可能な個人向けプランから、今後のエンタープライズやEdu向けへのMemory展開へと進むにつれ、開発者はAIをペアプログラマーとして使う段階を抜け出し、「複数人のジュニアエンジニアとアシスタントを束ねた開発チームを一人でディレクションする」ような、より高度なマネジメント型の働き方への適応を迫られることになる。

Sources

OpenAI: Codex for (almost) everything