人工知能(AI)の預言者たちやニュースメディアたちが、生成AIブームの終焉を予測している。迫り来る破局的な「モデル崩壊」について語られているのだ。
しかし、これらの予測はどの程度現実的なのだろうか?そもそも「モデル崩壊」とは何なのか?
2023年に議論され、最近になってさらに広まった「モデル崩壊」とは、インターネット上のAI生成データの増加により、将来のAIシステムが徐々に愚かになっていくという仮説的なシナリオを指す。
データの必要性
現代のAIシステムは機械学習を用いて構築される。プログラマーが基礎となる数学的構造を設定するが、実際の「知能」はシステムがデータのパターンを模倣するように訓練することで得られる。
しかし、どんなデータでも良いわけではない。現在の生成AIシステムには、高品質のデータが大量に必要である。
このデータを調達するため、OpenAI、Google、Meta、Nvidiaなどの大手テクノロジー企業は、絶えずインターネットを探索し、機械に与えるためのテラバイト単位のコンテンツを収集している。しかし、2022年に広く利用可能で有用な生成AIシステムが登場して以来、人々はますますAIが部分的または全体的に作成したコンテンツをアップロードし、共有するようになっている。
2023年、研究者たちは人間が生成したデータではなく、AI作成のデータのみに頼ることができないかと考え始めた。
これを実現させるには大きなインセンティブがある。インターネット上で増殖していることに加え、AI作成のコンテンツは人間のデータよりも調達コストが大幅に低い。また、大量に収集することも倫理的・法的に問題になりにくい。
しかし、研究者たちは高品質な人間のデータがなければ、AI作成のデータで訓練されたAIシステムは、各モデルが前のモデルから学習するにつれて、どんどん愚かになっていくことを発見した。これは近親交配の問題のデジタル版のようなものである。
この「反復訓練」はモデルの行動の質と多様性の低下につながるようだ。ここでいう質とは、おおよそ有用性、無害性、誠実性の組み合わせを意味する。多様性とは、応答の変化と、AIの出力に反映される人々の文化的・社会的視点を指す。
要するに、AIシステムを多用することで、それらを有用なものにするために必要なデータソースそのものを汚染している可能性があるのだ。
崩壊を回避する
大手テクノロジー企業はAI生成コンテンツをフィルタリングするだけではだめなのだろうか?実際のところ、それは難しい。テクノロジー企業はすでに収集したデータの清浄化とフィルタリングに多くの時間と費用を費やしている。業界関係者の最近の発言によると、モデルの訓練のために最初に収集したデータの90%を破棄することもあるという。
AI生成コンテンツを特に除去する必要性が高まるにつれ、これらの取り組みはさらに要求が厳しくなる可能性がある。しかし、より重要なのは、長期的には実際にAIコンテンツの識別がますます難しくなるということだ。これにより、合成データのフィルタリングと除去は(経済的に)見返りの少ない作業になるだろう。
結局のところ、これまでの研究から、人間のデータを完全になくすことはできないことがわかっている。結局のところ、AIの「I」は人間から来ているのだ。
破局に向かっているのか?
開発者たちがすでに高品質なデータの調達にこれまで以上に苦心しているという兆候がある。例えば、GPT-4のリリースに付随するドキュメントには、プロジェクトのデータ関連部分に関与したスタッフの数が前例のないほど多かったことが記されている。
また、新しい人間のデータも不足しつつあるかもしれない。一部の推計では、人間が生成したテキストデータのプールが2026年にも枯渇する可能性があるという。
これが、OpenAIなどがShutterstock、Associated Press、NewsCorpなどの業界大手との独占的なパートナーシップを急いで確保している理由だろう。これらの企業は、一般のインターネットでは容易に入手できない大規模な独自の人間のデータコレクションを所有しているのだ。
しかし、破局的なモデル崩壊の可能性は誇張されているかもしれない。これまでの研究のほとんどは、合成データが人間のデータに取って代わるケースを検討している。実際には、人間のデータとAIのデータは並行して蓄積される可能性が高く、これにより崩壊の可能性は低くなる。
最も可能性の高い将来のシナリオでは、一つの巨大なモデルではなく、ある程度多様な生成AIプラットフォームのエコシステムがコンテンツの作成と公開に使用されるだろう。これもまた、崩壊に対する頑健性を高める。
これは規制当局がAI部門の独占を制限することで健全な競争を促進し、公益のための技術開発に資金を提供する良い理由となる。
実際の懸念
AI作成コンテンツが多すぎることによる、より微妙なリスクも存在する。
合成コンテンツの氾濫は、AI開発の進歩に実存的な脅威をもたらさないかもしれないが、(人間の)インターネットというデジタル公共財を脅かす。
例えば、研究者たちはChatGPTのリリースから1年後、コーディングサイトStackOverflowのアクティビティが16%低下したことを発見した。これは、AIによる支援がすでに一部のオンラインコミュニティにおける人と人とのやり取りを減少させている可能性を示唆している。
また、AI駆動のコンテンツファームによる過剰生産により、広告だらけのクリックベイトではないコンテンツを見つけることが難しくなっている。
人間が生成したコンテンツとAIが生成したコンテンツを確実に区別することは不可能になりつつある。この問題に対処する一つの方法は、私や他の多くの人々が最近強調しているように、そして最近のオーストラリア政府の暫定法案に反映されているように、AI生成コンテンツにウォーターマークを付けたりラベル付けしたりすることだ。
もう一つのリスクもある。AI生成コンテンツが体系的に均質化するにつれ、社会文化的多様性を失うリスクがあり、一部の人々のグループは文化的消失を経験する可能性さえある。AIシステムがもたらす社会的・文化的課題について、学際的な研究が緊急に必要である。
人間同士のやり取りと人間のデータは重要であり、それらを保護すべきだ。私たち自身のため、そしておそらく将来起こりうるモデル崩壊のリスクのためにも。
コメント