生成AIは、人間が生み出した何世紀にもわたる芸術や文章によって訓練された。
しかし科学者たちや批評家たちは、AIが広く採用され、自身の出力を訓練に使い始めたら何が起こるのか疑問を抱いている。
そして新しい研究が、いくつかの答えを示している。
2026年1月、人工知能研究者であるArend Hintze、Frida Proschinger Åström、Jory Schossauは、生成AIシステムが自律的に実行され、人間の介入なしに独自の出力を生成および解釈できるようになった場合に何が起こるかを示す研究を発表した。
研究者たちは、テキストから画像を生成するシステムと画像からテキストを生成するシステムを接続し、それらを反復させた。画像、キャプション、画像、キャプション、と何度も何度も繰り返したのだ。
開始時のプロンプトがどれほど多様であったとしても、そしてシステムにどれほどのランダム性が許容されていたとしても、出力はすぐに、雰囲気のある都市景観、壮大な建物、田園風景といった、一般的で馴染みのある視覚テーマの狭い範囲に収束した。さらに驚くべきことに、システムは開始時のプロンプトをすぐに「忘れてしまった」のだ。
研究者たちは、この結果を「視覚的なエレベーターミュージック」と呼んだ。心地よく洗練されているが、真の意味を欠いているのである。
例えば、彼らは「首相は戦略文書に没頭し、差し迫った軍事行動の重圧を抱えながら、脆弱な平和協定を国民に売り込もうとしていた」という画像プロンプトから始めた。生成された画像はその後AIによってキャプションが付けられた。このキャプションが次の画像を生成するプロンプトとして使用された。
このループを繰り返した後、研究者たちは、人物もドラマもなく、時間や場所の実感もない、形式的な内部空間の平凡な画像に行き着いた。

CC BY)
生成モデルと創造性を研究するコンピューター科学者として、私はこの研究の知見を、AIが文化的停滞につながるかどうかについての議論の重要な一部であると考えている。
結果は、生成AIシステム自体が、自律的かつ繰り返し使用される際に均質化に向かう傾向があることを示している。それらは、AIシステムが現在デフォルトでこのように動作していることさえ示唆している。
馴染みのあるものがデフォルトである
この実験は的外れに見えるかもしれない。ほとんどの人はAIシステムに、自分の画像を延々と記述し、再生するよう求めることはないだろう。味気ないストック画像への収束は、再学習なしに起こった。新しいデータは追加されず、何も学習されなかった。この崩壊は、単に繰り返し使用することによって生じたのだ。
しかし、私はこの実験の設定を診断ツールとして考えることができると思う。それは、誰も介入しない時に生成システムが何を保持するかを明らかにする。
これはより広範な意味を持っている。なぜなら、現代の文化はまさにこの種のパイプラインによってますます影響を受けているからだ。画像はテキストに要約される。テキストは画像に変換される。コンテンツは、単語、画像、動画の間を移動する際にランク付けされ、フィルタリングされ、再生成される。Web上の新しい記事は今や人間よりもAIによって書かれる可能性が高い。人間が関与している場合でも、ゼロから始めるのではなく、AIが生成した選択肢から選ぶことが多い。
この最近の研究の知見は、これらのシステムのデフォルトの動作が、最も馴染みがあり、認識しやすく、再生成しやすいものに向けて意味を圧縮することであることを示している。
文化的停滞か加速か?
過去数年間、懐疑論者たちは、生成AIがWebを合成コンテンツで氾濫させることで文化的停滞につながる可能性があると警告してきた。将来のAIシステムはその後それを訓練に使用するのである。時間の経過とともに、この再帰的ループは多様性と革新を狭めると主張されている。
テクノロジーの支持者たちは反論し、文化的衰退への恐怖はあらゆる新技術に伴うものであると指摘してきた。人間は常に創造的決定の最終的な裁定者であると彼らは主張する。
この議論に欠けていたのは、均質化が実際にどこで始まるかを示す実証的証拠だ。
新しい研究はAI生成データでの再訓練をテストしていない。代わりに、より基本的なことを示している。均質化は再訓練が登場する前に起こる。生成AIシステムが自然に生成するコンテンツは、自律的かつ繰り返し使用される場合、すでに圧縮され一般的なものなのだ。
これは停滞論の枠組みを再構築するものである。リスクは、将来のモデルがAI生成コンテンツで学習する可能性があることだけでなく、AIを介した文化が既に、馴染みのあるもの、説明可能なもの、そして慣習的なものを優先する形でフィルタリングされているということだ。
再訓練はこの効果を増幅するだろう。しかし、それはその源ではない。
これはモラルパニックではない
懐疑論者たちは一つの点で正しい。文化は常に新しい技術に適応してきた。写真は絵画を殺さなかった。映画は演劇を殺さなかった。デデジタルツールは新たな表現形式を可能にしたのだ。
しかし、これらの初期の技術は、文化がグローバル規模でさまざまなメディアを通じて際限なく再形成されることを強制したことはなかった。ニュース記事、歌、ミーム、学術論文、写真、ソーシャルメディアの投稿といった文化製品を、何が「典型的」であるかという既成概念に導かれ、毎日何百万回も要約、再生、ランク付けするようなことはなかったのだ。
研究は、意味がこのようなパイプラインを通じて繰り返し強制される場合、多様性は悪意、悪質な設計、企業の怠慢のためではなく、特定の種類の意味だけがテキストから画像へ、画像からテキストへの繰り返しの変換を生き延びるために崩壊することを示している。
これは文化的停滞が不可避であることを意味しない。人間の創造性は回復力がある。機関、サブカルチャー、芸術家たちは常に均質化に抵抗する方法を見つけてきた。しかし、私の見解では、研究の知見は、生成システムが現在の反復で動作することを許可されている場合、停滞は推測的な恐怖ではなく、現実のリスクであることを示している。
それらはまた、AI創造性についての一般的な誤解を明らかにするのに役立つ。無限のバリエーションを生み出すことは、革新を生み出すことと同じではない。システムは、文化空間のごく小さな隅を探索するだけで、数百万の画像を生成できるのである。
創造的AIに関する私自身の研究では、新規性には規範から逸脱するインセンティブを持つAIシステムの設計が必要であることを見出した。それがなければ、システムは馴染みのあるものを最適化する。なぜなら、慣れ親しんだ状態こそが、AIが最もよく学習した状態だからだ。この研究はこの点を実証的に裏付けている。自律性だけでは探索が保証されるわけではない。場合によっては、自律性が収束を加速させることもあるのだ。
このパターンはすでに現実世界で現れている。ある研究では、AI生成のレッスンプランが従来型の、刺激のないコンテンツへの同じドリフトを特徴としていることが判明し、AIシステムがユニークで創造的なものではなく典型的なものに収束することを強調している。
翻訳で失われるもの
画像のキャプションを書く際、詳細は失われる。同様に、テキストから画像を生成する際も失われる。そして、これは人間が実行しても機械が実行しても起こる。
その意味で、起こった収束はAI特有の失敗ではない。それはあるメディアから別のメディアへと移り変わるという、より深い特性を反映している。意味が二つの異なるフォーマットを繰り返し通過する際、最も安定した要素だけが残るのだ。
しかし、テキストと画像の間で繰り返し翻訳される間に何が残るかを強調することにより、著者らは、意味がジェネリックに向かって静かに引き寄せられる生成システム内で処理されることを示すことができている。
この意味するところは厳しいものだ。たとえ人間によるガイダンスがあったとしても (プロンプトを書いたり、出力を選択したり、結果を改良したりする)、これらのシステムは依然として一部の詳細を削除し、他の詳細を「平均」に向ける形で増幅している。
生成AIが文化を平坦化するのではなく豊かにするためには、システムは統計的に平均的な出力への収束に抵抗する方法で設計される必要があると私は考える。逸脱に対する報酬と、より一般的でない主流ではない表現形式への支援が必要である。
研究は一つのことを明確にしている。これらの介入がなければ、生成AIは平凡で刺激のないコンテンツに向かってドリフトし続けるだろう。
文化的停滞はもはや推測ではない。それはすでに起きているのだ。