OpenAIは従業員が600PBのデータを処理するため「GPT-5.2」搭載データエージェントを構築した

Y Kobayashi 2026年1月31日

約 8 分

OpenAIは従業員が600PBのデータを処理するため「GPT-5.2」搭載データエージェントを構築した

OpenAIが、自社の膨大なデータ資産を効率的に活用するための内製AIツール「データエージェント」の詳細を明らかにした。このツールは、単なる自然言語によるインターフェースではない。7万件を超えるデータセットと、総計600ペタバイト（PB）に及ぶデータ群を、エンジニアだけでなく非技術部門の社員までもが数分で分析・可視化できるように設計された、高度な推論エンジンなのだ。

特筆すべきは、このエージェントが「GPT-5.2」という最新のフラッグシップモデルをベースに構築されている点だ。さらに、コードベースからデータの意味を抽出する「Codex Enrichment」を含む6層のコンテキスト（文脈）保持システムを搭載しており、従来のメタデータ管理では不可能だった「データの真の意図」の理解を実現している。

膨大なデータの海で溺れる組織の課題

OpenAIのデータプラットフォームは、3,500人以上の内部ユーザーを抱え、日々爆発的に増加するデータを処理している。しかし、規模が拡大するにつれ、深刻な問題が浮上していた。それは「適切なテーブルを見つけ出すだけで膨大な時間がかかる」という、ビッグデータを抱える企業共通のジレンマである。

社内ユーザーからは「似たようなテーブルが多すぎて、どれを使うべきか判断できない」「ログインユーザーのみを含むのか、ログアウトユーザーも含まれるのか、フィールド名だけでは判別不能だ」といった不満が募っていた。たとえ正しいテーブルを見つけたとしても、複雑なSQLを手動で記述し、多くの結合処理（Join）やフィルター条件のデバッグに時間を費やすことは、アナリスト本来の業務である「意思決定のための洞察」を阻害する。

OpenAIのエンジニアであるBonnie Xu、Aravind Suresh、Emma Tangの3氏が率いるチームは、この「データ探索の摩擦」を解消すべく、単にクエリを生成するだけでなく、データそのものの「背景」を理解し、自律的に思考するエージェントの開発に着手した。

意思決定を加速させる「6層のコンテキスト」

OpenAIが開発したデータエージェントの核心は、モデルをグラウンディング（根拠付け）するための多層的な情報構造にある。単純なRAG（検索拡張生成）を超え、以下の6つのレイヤーから知識を統合している。

第1層：テーブルの使用状況（Table Usage）

スキーマ情報やカラム名、データ型といった基本的なメタデータに加え、過去に実行された膨大なクエリ履歴を学習している。これにより、どのテーブルが頻繁に結合されるか、どのカラムがビジネス指標として重要視されているかをエージェントが自律的に推論する。

第2層：人間による注釈（Human Annotations）

ドメインエキスパートが手動で作成したテーブルやカラムの説明文。ここには、スキーマからは読み取れない「ビジネス上の意図」や「既知の注意点」が含まれる。

第3層：Codexによるコード強化（Codex Enrichment）

本システムの最も革新的な要素である。OpenAIの「Codex」を活用し、そのテーブルを生成したソースコード（SparkやPythonのパイプライン）をクロールして分析する。SQLやメタデータには現れない「データのフィルタリングロジック」「集計アルゴリズム」「鮮度の保証範囲」をコードレベルで解釈し、データの真の定義を抽出する。これにより、表面上は同じに見える2つのテーブルの違いを正確に指摘できるようになる。

第4層：組織知（Institutional Knowledge）

Slackのメッセージ、Google Docs、Notionなどのドキュメントを検索対象に含める。製品のローンチスケジュールや技術的なインシデント、社内で定義された標準メトリクスの算出根拠などを参照することで、「なぜ特定の時期にデータが急落したのか」といった文脈依存の問いに回答可能となる。

第5層：学習するメモリ（Memory）

ユーザーからの修正や、会話の中で発見されたデータのニュアンスを保存する。一度「この実験データには特定のフラグが必要だ」と指摘されれば、エージェントはそれを記憶し、次回以降のクエリに反映させる。これにより、使い込むほどに精度が向上する。

第6層：ランタイムコンテキスト（Runtime Context）

既存の知識が古い場合や存在しない場合、エージェントはデータウェアハウスに対して直接ライブクエリを発行し、実際のデータの分布やスキーマをリアルタイムで確認する。

「22分から82秒へ」劇的な効率化の実証

このシステムの効果は圧倒的だ。OpenAIが公開したテスト結果によると、「ChatGPT Image Genの過去30日間のログイン済みDAU（日間アクティブユーザー数）」という、一見単純だが複数の条件判断が必要なクエリにおいて、メモリ機能がない状態では適切なテーブルの特定に苦労し、回答までに22分以上を要した。

対して、6層のコンテキストとメモリを活用した場合、エージェントは瞬時に「正解」となるテーブルとフィルタ条件を特定。わずか1分22秒で正確な回答を導き出した。かつては専門のデータチームに依頼し、数日を要していた分析ワークフローが、自然言語による数分間の対話で完結するようになったのである。

思考するエージェント：閉ループの自己学習プロセス

このエージェントは、単に命令を遂行するだけのツールではない。GPT-5.2の高度な推論能力を活かし、自らの進捗を評価する「自己補正」機能を備えている。

例えば、生成したSQLを実行した結果、行数がゼロだったり、異常な値が出力されたりした場合、エージェントは「何かが間違っている」と判断。結合条件やフィルター設定を自ら調査し、アプローチを調整して再試行する。この「クローズドループ」の思考プロセスにより、ユーザーが介在することなく、高品質な分析結果が保証される。

また、頻繁に繰り返される定型的な分析（週次レポートなど）については、「ワークフロー」としてパッケージ化する機能も備えている。ベストプラクティスを再利用可能な形で保存することで、組織全体での分析精度の平準化を図っている。

厳格なセキュリティと「透明性」の確保

機密性の高いデータを扱う以上、セキュリティは最優先事項だ。このエージェントはOpenAIの既存のアクセス制御モデルに完全に統合されている。ユーザーが本来権限を持っていないテーブルに対しては、エージェント経由であってもアクセスは拒否される。

さらに、AIの「ブラックボックス化」を防ぐための工夫も施されている。エージェントは回答とともに、自身の推論プロセス（どの資料を参照し、どのような仮定を立てたか）を要約して提示する。実行されたSQLコードや生データへのリンクも明示されるため、ユーザーはいつでもプロセスの妥当性を検証できる。

汎用AIから「業務に特化したエージェント」への転換点

OpenAIがこの内製ツールを公開した背景には、AIの進化が「知識の提供」から「実行の代行」へと移行していることを示す意図がある。

GPT-5.2のような強力なモデルを、ただ汎用的なチャットボットとして使うのではなく、企業の独自のコード、ドキュメント、そして膨大な構造化データと密接に結合させる。これこそが、AIが真に「同僚（Teammate）」として機能するための条件であることを、彼らは自社のプラットフォームで証明した。

「コードこそがデータの真実を語る」という洞察に基づくCodex Enrichmentは、データガバナンスのあり方を根本から変える可能性がある。ドキュメントが更新されずとも、ソースコードを読み解くAIがいれば、データの意味は常に最新の状態に保たれる。

OpenAIのこの試みは、将来的に外部のエンタープライズ顧客向けに提供されるソリューションの雛形となるだろう。600PBの海を自在に航行するこのエージェントは、データ主導の経営を目指すあらゆる企業にとっての「北極星」となるはずだ。

Sources

OpenAI: Inside OpenAI’s in-house data agent

この記事はいかがでしたか？

DNAは宇宙の電磁波を受信する「量子アンテナ」だった？進化の常識を覆す最新研究

DNAが宇宙の微弱な電磁信号を受信し、量子トンネル効果を介して変異確率を調整する能動的な量子計算機であるという新説が提唱された。この仮説は、非コーディング領域がアンテナとして宇宙の時間を感知し、コーディング領域が演算回路として機能することで、生命が宇宙の膨張と量子力学的に接続されている可能性を示唆している。

2026年4月30日

GPT-5.5がゴブリンを禁じた理由。出現率175%増を招いた強化学習の暴走の仕組み

最新のAIモデルを利用する際、不自然な比喩表現に違和感を覚えたことはないだろうか。専門的なコードや複雑な概念を尋ねているのに、AIが突然「ゴブリン」や「アライグマ」を引き合いに出して解説を始める現象が報告されている。なぜ最先端のAIが、ファンタジーの住人や小動物に執着するようになったのか。その裏には、AIの強化学習プロセスに潜む思わぬ罠があった。OpenAIの最新モデル「GPT-5.5」のシステムプロンプトに急遽追加された異例の禁止令から、AIが特定の表現を自己増殖させてしまうフィードバックループの仕組みを紐解く。

2026年4月30日

次元の壁を越えたMITの新技術。数十年の謎だった「リラクサー材料」の深層構造を初解明

マサチューセッツ工科大学を中心とした国際研究チームは、多スライス電子タイコグラフィ（MEP）を駆使し、これまで不明だったリラクサー強誘電体の3次元原子構造と電荷分布を直接観測することに成功した。この発見は、従来のシミュレーションが描いた原子レベルの乱れが巨視的な性能に結びつくメカニズムを覆し、高感度センシング技術の飛躍的発展に貢献する可能性を秘めている。

2026年5月1日

↑ トップへ戻る

OpenAIは従業員が600PBのデータを処理するため「GPT-5.2」搭載データエージェントを構築した

膨大なデータの海で溺れる組織の課題

意思決定を加速させる「6層のコンテキスト」

第1層：テーブルの使用状況（Table Usage）

第2層：人間による注釈（Human Annotations）

第3層：Codexによるコード強化（Codex Enrichment）

第4層：組織知（Institutional Knowledge）

第5層：学習するメモリ（Memory）

第6層：ランタイムコンテキスト（Runtime Context）

「22分から82秒へ」劇的な効率化の実証

思考するエージェント：閉ループの自己学習プロセス

厳格なセキュリティと「透明性」の確保

汎用AIから「業務に特化したエージェント」への転換点

この記事はいかがでしたか？

「奇跡の全固体電池」はリチウムイオン電池だった――Donut Lab疑惑、電気化学的証拠が決定打に

電気抵抗ゼロで空を飛ぶ。ストラスクライド大が実証した超伝導航空用モーターの破壊力

AIチップの熱問題を救う新構造。抵抗を50分の1にし次世代「テルル半導体」の実用化を加速させるブレイクスルー

DDR4プラットフォームが再び増産へ、AIメモリ不足でPC自作の前提が変わり始めた

Antares、次世代小型モジュール炉「Mark-0」で初の臨界達成：米エネルギー省主導プログラムで最速の商用化へ

Microsoftが「Windows Ready Print」を発表：Windows印刷の10年ぶり大改革、2026年7月から段階展開

最新AI「Claude Fable 5」が敗北。55の産業ツールを操る究極の実務ベンチマーク「ALE」でGPT-5.5が首位を獲得した理由

Microsoft AIトップ、AIが仕事を奪うとの前言を撤回：「AIが奪うのは仕事ではなくタスクである」

Windows 11、スタートメニューが劇的に速くなる「低遅延プロファイル」を提供開始

フィンランドが海底ケーブル防衛を実証。錨引きずりを検知するセンサー網により”切断後の復旧”から”切断前の警報”へ

膨大なデータの海で溺れる組織の課題

意思決定を加速させる「6層のコンテキスト」

第1層：テーブルの使用状況（Table Usage）

第2層：人間による注釈（Human Annotations）

第3層：Codexによるコード強化（Codex Enrichment）

第4層：組織知（Institutional Knowledge）

第5層：学習するメモリ（Memory）

第6層：ランタイムコンテキスト（Runtime Context）

「22分から82秒へ」劇的な効率化の実証

思考するエージェント：閉ループの自己学習プロセス

厳格なセキュリティと「透明性」の確保

汎用AIから「業務に特化したエージェント」への転換点

この記事はいかがでしたか？

関連記事

DNAは宇宙の電磁波を受信する「量子アンテナ」だった？進化の常識を覆す最新研究

GPT-5.5がゴブリンを禁じた理由。出現率175%増を招いた強化学習の暴走の仕組み

次元の壁を越えたMITの新技術。数十年の謎だった「リラクサー材料」の深層構造を初解明