AI開発のデータは枯渇しつつある：企業の「閉じられたデータ」が救世主か

Y Kobayashi 2025年10月4日

約 9 分

生成AIの進化を支えてきた「データ」という燃料が、尽きようとしている。Goldman Sachsのアナリストが「高品質なデータはすでに使い果たされた」と警鐘を鳴らし、業界に衝撃が走っているのだ。AI開発の現場では、Web上のデータを使い尽くし、AIが生成した「合成データ」で訓練する苦肉の策が広がる。しかし、これはAIの能力を劣化させる「モデル崩壊」のリスクをはらむ諸刃の剣だ。このデータ飢饉とも言うべき危機を乗り越える最後の希望は、企業のファイアウォールの内側に眠る「プロプライエタリデータ（独自データ）」にあるのかもしれない。

「我々はすでにデータを使い果たした」— 迫り来るAIの成長限界

「我々はすでにデータを使い果たした」。Goldman Sachsのチーフ・データ・オフィサー兼データエンジニアリング責任者であるNeema Raphael氏が、同行のポッドキャストで放った言葉は、AI業界が直面する根源的な課題を浮き彫りにした。

近年の生成AIの目覚ましい発展は、インターネット上に存在する膨大なテキストや画像を「訓練データ」として貪欲に吸収することで成し遂げられてきた。しかし、その手法が限界に近づいている。Raphael氏によれば、AIモデルの訓練に利用できる高品質な公開データは、すでに枯渇し始めているという。

この見解は、業界内で静かに共有されてきた懸念でもある。3年前にChatGPTが世界を席巻して以来、AI開発競争は激化。各社はより大規模で高性能なモデルを開発するため、Web上のデータを文字通り「スクレイピング（収集）」し尽くした。OpenAIの共同創業者であるIlya Sutskever氏も2025年1月の時点で「オンライン上の有用なデータはすべて使い果たされた」と発言しており、AIの急速な発展期が終わりを迎える可能性を警告していた。

この「データ飢饉」は、AI開発のパラダイムシフトを余儀なくさせている。Raphael氏が指摘するように、一部の開発者はすでに、既存のAIモデルの生成物、すなわち「合成データ」を新たなモデルの訓練に使い始めている。これは、限られたデータから新たなデータを疑似的に生成する技術だが、そこには深刻なリスクが潜んでいる。

AIがAIを育てる「共食い」の危険性 — モデル崩壊という時限爆弾

高品質な人間の手によるデータが不足する中、AIが生成したデータで次のAIを訓練する手法は、一見すると無限にデータを増殖できる魔法のように見える。しかし、これはAIの能力を徐々に蝕む「モデル崩壊」という致命的な現象を引き起こす危険性をはらんでいる。

モデル崩壊とは、AIが生成したデータを再学習するサイクルを繰り返すうちに、モデルが本来持っていた多様性や正確性が失われ、劣化していく現象を指す。コピーを繰り返すと画質が劣化していくように、AIが生成したデータには、元データにはなかった微細な誤りや偏りが含まれる。この「AIスロップ（AIが生み出す質の低いゴミ情報）」とも呼ばれるデータをAIが再び学習すると、誤りが増幅・蓄積され、最終的には現実世界からかけ離れた、奇妙で役に立たない出力しかできなくなる可能性がある。

これは、文化が多様なインプットを失い、内向きに再生産を繰り返すことで衰退していく様に似ている。AIの世界もまた、現実世界からの新鮮で高品質なデータの供給がなければ、その知性を維持・発展させることができないのだ。

この問題は、AIの未来そのものを左右しかねない。もしAIが自らの生成物しか学べなくなれば、新たな知識の発見や創造的なタスクの遂行は困難になるだろう。現在のAIブームが、単なるデータの食い潰しによる一過性のものに終わるか、あるいは持続的な成長を遂げられるかは、このデータ問題をいかに克服するかにかかっている。

二極化するAI市場：インフラ投資競争と価値創造の分水嶺

データ枯渇という課題が顕在化する中で、AI市場は大きく二つの潮流に分かれ始めている。一つは、汎用的な消費者向けAIで覇権を握ろうとする巨大テック企業による、天文学的な規模のインフラ投資競争だ。

Constellation Researchの分析によれば、OpenAI、Softbank、Oracle、NVIDIAといったプレイヤーたちは、次世代のスーパーインテリジェンス（超知能）を目指し、何千億ドルもの資金をデータセンターやカスタム半導体の開発に投じている。これは、まるでゴールドラッシュのように過熱しており、その経済的な持続可能性には疑問符がつく。コンサルティング会社Bainは、2030年のAI需要を満たすためには、世界全体で年間2兆ドルの収益が必要になると試算しており、現在の予測では8000億ドルも不足するという厳しい見通しを示している。

一方で、もう一つの潮流として着実に価値を生み出し始めているのが、「エンタープライズAI」の領域だ。こちらは、汎用的な知能ではなく、特定のビジネス課題を解決することに特化している。そして、その成功の鍵を握るのが、まさにGoldman SachsのRaphael氏が「最後の希望」と語る、企業の内部に眠るプロプライエタリデータ（独自データ）なのである。

最後のフロンティアは「社内」にあり — 企業独自データという解決策

Raphael氏は、データ枯渇がAIの進歩を完全に止めることにはならないと楽観的な見方を示す。その根拠こそが、「いまだ活用されていない、膨大な量の閉じ込められた企業データ」の存在だ。

インターネット上のデータが誰でもアクセス可能な「公有地」だとすれば、企業が持つ独自データは、競合他社が手に入れることのできない「私有地」である。このデータには、公のWebデータにはない、計り知れない価値が秘められている。

独自性と希少性: 企業の取引履歴、顧客との対話ログ、製品のセンサーデータ、サプライチェーンの記録などは、その企業だけが持つ唯一無二の資産だ。
高品質と高密度: これらのデータは特定のビジネス文脈に沿って収集・蓄積されており、ノイズが少なく、価値ある情報が凝縮されている。
ビジネス価値への直結: 企業の独自データで訓練されたAIは、その企業の特定の業務プロセスや顧客ニーズに最適化され、直接的な収益向上やコスト削減に繋がりやすい。

すでに先進的な企業は、この「社内に眠る石油」の採掘に着手している。

FedEx：「荷物の情報こそが価値」— 物流データがAIの燃料に

世界的な物流大手FedExのCEO、Rajesh Subramaniam氏は、「荷物に関する情報が、荷物そのものと同じくらい重要だ」と断言する。同社は毎日1,700万個の荷物を扱い、その過程で2ペタバイトのデータを生成している。この膨大な物流データは、グローバルな商流、季節的な需要変動、新たな貿易ルートの出現などを捉える比類なきインサイトの源泉となる。FedExは2020年に構築したデータプラットフォームを「AIの燃料」と位置づけ、業務全体の最適化や新たな収益モデルの創出に活用し始めている。

ExxonMobil：過去の教訓を未来の力に — プロジェクトデータのAI活用

エネルギー大手ExxonMobilは、過去に実施した大小様々なプロジェクトの成功・失敗事例を蓄積した巨大なデータベースを保有している。この「教訓の宝庫」は、生成AIの登場によって初めて真価を発揮し始めた。同社の上級副社長、Jack Williams氏は、「AIの優位性は、学習元のデータセットの質にかかっている。我々は世界最大のプロジェクトデータベースを持っており、これが長期的に大きな違いを生むと確信している」と語る。過去のあらゆる教訓をAIが学習し、未来のプロジェクトに活かすことで、生産性と効率性を飛躍的に向上させようとしている。

Intuit：「知能システム」への進化 — 顧客データが導く新サービス

会計ソフト大手のIntuitは、6年以上前からデータとAIに全社的に投資してきた。同社は、中小企業や個人事業主から集まる膨大な財務・商取引データを活用し、単なる「記録システム（System of Record）」から、顧客の意思決定を支援する「知能システム（System of Intelligence）」へと進化しようとしている。同社のCEO、Sasan Goodarzi氏は、「AIによって、すべてのSaaS企業は破壊者になるか、破壊されるかのどちらかだ」と述べ、データとAIの活用能力が企業の生死を分けると強調する。

FICO/Equifax：専門データが生む「堀」— 金融特化LLMの威力

信用スコアリングを手掛けるFICOやEquifaxは、そのビジネスモデル自体が強力なプロプライエタリデータに基づいている。FICOは、長年蓄積してきた金融取引データを活用し、金融サービスに特化した独自の基盤モデル（LLM）を開発。汎用モデルに比べて最大1,000分の1のリソースで、より正確で監査可能な結果を出せると主張する。EquifaxのCEO、Mark Begor氏は、「我々が持つ独自データこそが『堀（Moat）』であり、他社には真似のできない競争優位性の源泉だ」と語る。

AIの未来は「データの質」にかかっている

Goldman Sachsが鳴らした警鐘は、AI開発の新たな時代の幕開けを告げている。もはや、インターネットからどれだけ多くのデータを集められるかという「量」の競争は終わりを告げた。これからの競争の主戦場は、いかにして自社独自の高品質なデータを整備し、それをビジネス価値に転換できるかという「質」の競争になるだろう。

もちろん、企業データの活用は容易ではない。Raphael氏が指摘するように、サイロ化されたデータを統合し、クレンジングや正規化を行い、ビジネスコンテクストを理解させるという地道な「データエンジニアリング」のプロセスが不可欠だ。これは単なる技術的な課題ではなく、組織の壁を越え、データ中心の文化を醸成するという経営レベルの変革を必要とする。

しかし、その困難を乗り越えた先にこそ、AIがもたらす真の価値創造があると、先進企業たちの取り組みは示している。AIの成長が限界を迎えるか、それとも新たな飛躍を遂げるのか。その答えは、世界中の企業のサーバーの中に、まだ誰にも気づかれずに眠っているのかもしれない。

Sources

Goldman Sachs (YouTube): AI Exchanges: The Role of Data

この記事はいかがでしたか？

↑ トップへ戻る

AI開発のデータは枯渇しつつある：企業の「閉じられたデータ」が救世主か

「我々はすでにデータを使い果たした」— 迫り来るAIの成長限界

AIがAIを育てる「共食い」の危険性 — モデル崩壊という時限爆弾

二極化するAI市場：インフラ投資競争と価値創造の分水嶺

最後のフロンティアは「社内」にあり — 企業独自データという解決策

FedEx：「荷物の情報こそが価値」— 物流データがAIの燃料に

ExxonMobil：過去の教訓を未来の力に — プロジェクトデータのAI活用

Intuit：「知能システム」への進化 — 顧客データが導く新サービス

FICO/Equifax：専門データが生む「堀」— 金融特化LLMの威力

AIの未来は「データの質」にかかっている

関連する事物

この記事はいかがでしたか？

「奇跡の全固体電池」はリチウムイオン電池だった――Donut Lab疑惑、電気化学的証拠が決定打に

光子を半分に切断すると何が起きる？物理学者が想像もしなかった奇妙な結末

フィンランドが海底ケーブル防衛を実証。錨引きずりを検知するセンサー網により”切断後の復旧”から”切断前の警報”へ

ベルギー発の全固体電池、液体電解質ゼロで465Wh/kgを達成

Microsoft AIトップ、AIが仕事を奪うとの前言を撤回：「AIが奪うのは仕事ではなくタスクである」

フィンランドが海底ケーブル防衛を実証。錨引きずりを検知するセンサー網により”切断後の復旧”から”切断前の警報”へ

ベルギー発の全固体電池、液体電解質ゼロで465Wh/kgを達成

光子を半分に切断すると何が起きる？物理学者が想像もしなかった奇妙な結末

「計算中のエラー訂正」がついに実現。イオントラップと四次元符号が拓く量子コンピューターの新時代

「設計データすら域外に出さない」欧州初の完全自律型・半導体製造ラインが遂に始動

「我々はすでにデータを使い果たした」— 迫り来るAIの成長限界

AIがAIを育てる「共食い」の危険性 — モデル崩壊という時限爆弾

二極化するAI市場：インフラ投資競争と価値創造の分水嶺

最後のフロンティアは「社内」にあり — 企業独自データという解決策

FedEx：「荷物の情報こそが価値」— 物流データがAIの燃料に

ExxonMobil：過去の教訓を未来の力に — プロジェクトデータのAI活用

Intuit：「知能システム」への進化 — 顧客データが導く新サービス

FICO/Equifax：専門データが生む「堀」— 金融特化LLMの威力

AIの未来は「データの質」にかかっている

関連する事物

この記事はいかがでしたか？

関連記事

DeepSeekが画期的なOCRシステムを発表：テキストを画像化する逆転の発想でトークンを劇的に圧縮

GPUの時代が終わる？ AIの根源問題に挑むCounterintuitiveが全く新しい推論チップ「ARU」を発表

DeepSeekはAIに試行錯誤させることで「人間の教師なし」で推論能力を磨かせている