先週、Xのオーナーである億万長者のElon Musk氏は、ChatGPTなどのAIモデルの訓練に使用される人間が生成したデータのプールが枯渇したと主張した。
Musk氏はこの主張を裏付ける証拠を示さなかったが、他の主要なテクノロジー業界の人物たちも、ここ数か月で同様の主張を行っている。また、以前の研究では、人間が生成するデータは2年から8年以内に枯渇すると指摘されていた。
これは主に、人間がテキスト、動画、画像などの新しいデータを、AIモデルの急速で膨大な需要に追いつくほど速く作成できないためである。本物のデータが枯渇した場合、開発者とAIユーザーの両方にとって大きな問題となる。
これによりテクノロジー企業は、「合成データ」として知られるAIが生成したデータにより大きく依存せざるを得なくなる。そしてこれにより、現在数億人が使用しているAIシステムの精度と信頼性が低下し、その結果として有用性も低下する可能性がある。
しかし、これは避けられない結果ではない。実際、適切に使用・管理されれば、合成データはAIモデルを改善する可能性がある。
実データの問題点
テクノロジー企業は、ChatGPTのような生成AIモデルを構築、訓練、改良するために、実データまたは合成データに依存している。このデータの品質は極めて重要である。料理において質の低い材料を使用すると質の低い料理になるのと同様に、質の低いデータは質の低い出力につながる。
実データとは、人間が作成したテキスト、動画、画像を指す。企業はアンケート、実験、観察、またはウェブサイトやソーシャルメディアのマイニングなどの手法でこれを収集する。
実データは、実際の出来事を含み、幅広いシナリオやコンテキストを捉えているため、一般的に価値があると考えられている。しかし、完璧ではない。
例えば、スペルミスや一貫性のない内容、無関係な内容が含まれる可能性がある。また、大きな偏りを持つ可能性があり、これにより例えば生成AIモデルが特定の職業について男性や白人のみの画像を生成するといった結果につながる可能性がある。
このようなデータの準備にも多大な時間と労力が必要である。まず人々がデータセットを収集し、AIモデルにとって意味のあるものとするためにラベル付けを行う。その後、不整合を解決するためにデータをレビューおよびクリーニングし、コンピュータがフィルタリング、整理、検証を行う。
このプロセスは、AIシステムの開発における総投資時間の最大80%を占める可能性がある。
しかし上述の通り、人間が増大するAIの需要を満たすほど速くデータを生成できないため、実データは ますます供給不足になっている。
合成データの台頭
合成データとは、ChatGPTが生成したテキストやDALL-Eが生成した画像など、アルゴリズムによって人工的に作成または生成されたデータである。
理論的には、合成データはAIモデルの訓練において費用対効果が高く、より迅速な解決策を提供する。
また、特に健康データのような機密性の高い個人情報に関して、プライバシーの懸念や倫理的な問題にも対応する。
重要なことに、実データとは異なり供給不足ではない。事実、無制限に利用可能である。
合成データの課題
これらの理由により、テクノロジー企業はどんどんAIシステムの訓練に合成データを活用するようになっている。調査会社のGartnerは、2030年までに合成データがAIで使用されるデータの主要な形態になると予測している。
しかし、合成データは有望な解決策を提供する一方で、課題がないわけではない。
主要な懸念の一つは、AIモデルが合成データに過度に依存すると「崩壊」する可能性があることである。これは、誤った情報を含む応答である「ハルシネーション」の生成が多くなりすぎ、品質とパフォーマンスが大幅に低下して使用不可能になることを意味する。
例えば、AIモデルは既に特定の単語のスペルを正確に表記することに苦労している。このような誤りを含むデータが他のモデルの訓練に使用されると、それらのモデルも同様にエラーを複製することになる。
合成データには、過度に単純化されるリスクもある。実際のデータセットに見られるような微妙な詳細や多様性が欠如している可能性があり、その結果、それを基に訓練されたAIモデルの出力も過度に単純化され、有用性が低下する可能性がある。
AIの精度と信頼性を維持するための堅牢なシステムの構築
これらの問題に対処するため、International Organisation for Standardisation(ISO)やUnited Nations’ International Telecommunication Union (ITU)などの国際機関や組織が、AIの訓練データを追跡および検証するための堅牢なシステムを導入し、そのシステムがグローバルに実装できることを確保することが不可欠である。
AIシステムにメタデータを追跡する機能を装備することで、ユーザーやシステムが訓練に使用された合成データの起源と品質を追跡できるようになる。これはグローバルに標準化された追跡・検証システムを補完することになる。
また、人間はAIモデルの訓練プロセス全体を通じて合成データを監視し、高品質であることを確保する必要がある。この監視には、目標の定義、データ品質の検証、倫理基準の遵守確保、AIモデルのパフォーマンスのモニタリングが含まれるべきである。
やや皮肉なことに、AIアルゴリズムも他のモデルからのAI生成出力の精度を確保するため、データの監査と検証において役割を果たすことができる。例えば、これらのアルゴリズムは合成データを実データと比較して、データの一貫性と精度を確保するためにエラーや不一致を特定することができる。このように、合成データはより優れたAIモデルにつながる可能性がある。
AIの未来は高品質なデータに依存している。合成データはデータ不足を克服する上でますます重要な役割を果たすことになる。
しかし、その使用は透明性の維持、エラーの削減、プライバシーの保護のために慎重に管理される必要がある – これにより合成データが実データの信頼できる補完として機能し、AIシステムの精度と信頼性を維持することができる。
コメント