AIは「平均的な人間」の創造性を超えたが、「天才」には遠く及ばない：10万人規模の比較研究が暴く、生成AIと人類の決定的な境界線

Y Kobayashi 2026年1月28日

約 10 分 7 閲覧

AIは「平均的な人間」の創造性を超えたが、「天才」には遠く及ばない：10万人規模の比較研究が暴く、生成AIと人類の決定的な境界線

この記事のポイント

AIは平均的な人間の創造性を超えた
しかし、最も創造的な人間には及ばない
独創性には人間の経験や飛躍が必要

人工知能（AI）は、詩を書き、絵を描き、物語を紡ぐ。その進化の速度は、多くの人々に「人間の創造性など、もはや機械の前では無力なのではないか」という実存的な不安を抱かせるに十分なものであった。しかし、モントリオール大学（Université de Montréal）のKarim Jerbi教授や、ディープラーニングの先駆者であるYoshua Bengio氏らによる最新の大規模研究は、その不安に対して科学的かつ冷静な、そして極めて興味深い「答え」を提示した。

『Scientific Reports』に掲載されたこの画期的な研究は、10万人の人間と、GPT-4を含む最先端の大規模言語モデル（LLM）の創造性を直接対決させたものである。その結論は衝撃的であり、同時に人類にとって希望の光とも言えるものであった。「AIは平均的な人間の創造性を凌駕した。しかし、最も創造的な人間たちの領域には、いまだ指一本触れることができていない」。

創造性を「測定」する科学：拡散的思考への挑戦

創造性とは何か。この問いは長年、哲学や芸術の領域にあったが、現代科学はこれを定量化可能な認知プロセスとして捉えている。研究チームが焦点を当てたのは、創造性の核心的要素である「拡散的思考（Divergent Thinking）」だ。これは、一つの問いに対して、いかに多様で、独創的で、かつ有用なアイデアを数多く生み出せるかという能力を指す。

創造性のベンチマーク「DAT」とは

これまでの創造性テスト（例：レンガの使い道をできるだけ多く挙げる代替用途テストなど）は、採点に主観が入り込む余地があり、人間と機械を公平に比較することが困難であった。そこで研究チームが採用したのが、「拡散的連想課題（Divergent Association Task: DAT）」と呼ばれる手法である。

DATの手順は極めてシンプルだ。「意味が互いにできるだけ離れている10個の単語を挙げよ」というものである。

創造性が低い回答例: 「猫、犬、動物、耳、しっぽ…」（意味的な距離が近く、同じカテゴリーに留まっている）
創造性が高い回答例: 「銀河、フォーク、自由、藻類、ハーモニカ、量子、ノスタルジア…」（意味空間上の距離が遠く、概念の飛躍がある）

このテストの優れた点は、単語間の「意味的な距離」を、数理モデル（単語埋め込みベクトル）を用いて客観的に計算できる点にある。これにより、10万人の人間とAIの出力を、完全に同一の基準で採点することが可能となったのだ。

第一の衝撃：AIが「平均」を超えた瞬間

研究チームは、GPT-3.5、GPT-4、Claude 3、Gemini Proなど、現在入手可能な主要なLLMに対してDATを実施し、そのスコアを人間と比較した。その結果は、生成AIの進化をまざまざと見せつけるものであった。

「平均」の陥落

データは残酷な事実を示した。GPT-4をはじめとする高性能モデルは、人間の平均的なDATスコアを上回ったのだ。GoogleのGemini Proも人間と同等の水準に達しており、統計的に有意な差で「平均的な人間」よりも意味的に遠い単語の組み合わせを生成することに成功した。

これは、AIが単なる確率的な単語予測マシーンの域を超え、広大な意味空間（Semantic Space）を自在に飛び回る能力を獲得していることを示唆している。日常的な会話やビジネスメール、典型的なパターンの物語生成において、AIが「人間より上手い」と感じられる理由はここにある。彼らは、並の人間が思いつくような「ありきたりな連想」の枠を、軽々と飛び越えてみせるのだ。

モデル間の格差と「退化」の謎

興味深いことに、すべてのAIが優秀だったわけではない。パラメータ数の少ないモデルや旧世代のモデルは人間に及ばなかった。さらに特筆すべきは、GPT-4-turboが、その前身であるオリジナルのGPT-4よりも低いスコアを記録したという点だ。
これは、開発企業がモデルの推論速度やコスト効率（Efficiency）を優先して最適化を行った結果、拡散的な探索能力（Creativity）が犠牲になった可能性を示唆している。「新しければ創造的である」とは限らないという事実は、AI開発におけるトレードオフを浮き彫りにした。

第二の衝撃：不可侵の領域「トップ10%の壁」

しかし、人類が絶望する必要はどこにもない。むしろ、この研究の真骨頂はここからにある。研究チームが人間のデータを細分化し、スコア上位層（トップ50%、トップ25%、トップ10%）とAIを比較したところ、景色は一変した。

「天才」たちの圧倒的優位

最も創造的な「トップ10%」の人間たちは、GPT-4を含むすべてのAIモデルを圧倒したのである。
グラフ上の分布を見ると、AIのスコアは高い位置で安定しているものの、ある一定のラインで「天井」に突き当たっている。対して、人間側の分布は右裾（高スコア側）に長く伸びており、AIがどうしても到達できない領域に到達している個体が数多く存在することが確認された。

なぜAIはトップ層に勝てないのか

この結果は、AIと人間の創造的プロセスの根本的な違いを示唆している。

意味の断絶と接続: 高度な創造性を持つ人間は、一見何の関係もない概念同士（例：「量子力学」と「悲しみ」）を、個人的な体験や隠喩を通じて接続することができる。AIは学習データ内の統計的な共起関係に依存しているため、データセット内で「遠すぎる」関係性は、エラーやノイズとして処理されるか、そもそも探索の候補に挙がらない可能性がある。
「安全」へのバイアス: AIモデル、特にRLHF（人間によるフィードバック強化学習）を経たモデルは、一貫性や有用性を重視するよう調整されている。これが「狂気」に近い独創性を抑制している可能性がある。実際、GPT-4は「顕微鏡（Microscope）」や「象（Elephant）」といった特定の単語を何度も繰り返す傾向が見られた。これらは意味的に孤立しやすい単語としてAIが「学習」してしまった「安全な正解」であり、真の独創性とは異なる。

単語リストから「物語」へ：複雑な創造性における検証

「単語を並べるだけならAIも得意だろうが、小説や詩はどうなのか？」という疑問に答えるため、研究チームは実験を拡張した。俳句、映画のあらすじ、ショートショート（Flash Fiction）の執筆においても比較が行われた。

構造的制約と創造性

評価には、テキスト内の意味的多様性を測るDSI（Divergent Semantic Integration）などの指標が用いられた。ここでも傾向はDATと同じであった。
AIは、文法的に完璧で、それなりにひねりの効いた物語や俳句を作る能力において、平均的な人間を凌駕した。しかし、詩的な表現の深みや、物語における意表を突く展開（プロットツイスト）の独創性においては、人間が書いた優れた作品群が依然として優位性を保っていた。

特に俳句のような短い形式では、AIは「俳句らしい単語（自然、季節）」に固執する傾向が見られたが、人間はより多様な語彙を用いて、制約の中で遊ぶ能力を見せた。

AIの創造性をハックする：温度とプロンプトの魔術

この研究は、AIを単に評価するだけでなく、「どうすればAIをもっと創造的にできるか」というエンジニアリングの側面にも光を当てている。

温度（Temperature）を上げろ

LLMには「温度」というパラメータがある。これを上げると、モデルは確率が高い（予測しやすい）単語ではなく、確率が低い（意外な）単語を選ぶようになる。
実験では、温度を上げることでGPT-4の創造性スコアは劇的に向上し、より多くの人間を追い抜くようになった。しかし、温度を上げすぎれば出力は支離滅裂になる。「創造性とは、無秩序と秩序の境界線上にある」という複雑系科学の知見が、AIにおいても再現された形だ。

戦略的プロンプティング

さらに、「語源（Etymology）を考慮して言葉を選べ」といった具体的な思考戦略をプロンプトで指示することで、AIのスコアは向上した。これは、AIの創造性が固定された能力（Fixed Ability）ではなく、ユーザーの指示出し（Prompt Engineering）によって引き出される流動的な能力であることを意味している。ここに、人間とAIの協働の鍵がある。

競争から「拡張」へ

本研究が最終的に示唆するのは、AIによる「置換」ではなく、「拡張」の未来である。

平均の底上げツールとして

AIは、平均的な人間よりも創造的である。これは、クリエイティブな職種ではない人々や、アイデア出しに詰まっている人々にとって、AIが「最強のブレインストーミング・パートナー」になり得ることを意味する。AIを使えば、誰でも「平均以上の創造性」を即座に手に入れられるのだ。

頂点を目指すためのブースターとして

一方で、トップレベルのクリエイターにとって、AIはライバルではない。AIが生成する良質な（しかし天井のある）アイデアを足場にし、そこから人間特有の「体験」「感情」「文脈」を加えることで、これまでの人類が到達できなかったさらなる高みへと登ることができるだろう。

モントリオール大学のKarim Jerbi教授はこう結んでいる。
「AIが特定のテストで人間レベルに達したとしても、『人間対機械』という誤った競争意識を捨てる必要があります。生成AIは人間の創造性に奉仕する強力なツールとなったのです。それはクリエイターを置き換えるものではなく、彼らがどのように想像し、探求し、創造するかを根本から変革するものです」

我々は今、創造性の定義そのものが書き換わる瞬間に立ち会っている。AIは「平均」を民主化する。そして人間は、その土台の上で、未踏の「天才」の領域へと、再び歩き出すのだ。

論文

Scientific Reports: Divergent creativity in humans and large language models

参考文献

Université de Montréal: Creative talent: has AI knocked humans out?
The University Network: Study Finds AI Can Beat Average Human Creativity, but Not the Best

テーマ

この記事はいかがでしたか？

一緒に読みたい・使いたいアイテム

※本リンクから購入いただくと、当サイトの運営・記事制作費に充てられます（Amazonアソシエイト参加）

↑ トップへ戻る

AIは「平均的な人間」の創造性を超えたが、「天才」には遠く及ばない：10万人規模の比較研究が暴く、生成AIと人類の決定的な境界線

創造性を「測定」する科学：拡散的思考への挑戦

創造性のベンチマーク「DAT」とは

第一の衝撃：AIが「平均」を超えた瞬間

「平均」の陥落

モデル間の格差と「退化」の謎

第二の衝撃：不可侵の領域「トップ10%の壁」

「天才」たちの圧倒的優位

なぜAIはトップ層に勝てないのか

単語リストから「物語」へ：複雑な創造性における検証

構造的制約と創造性

AIの創造性をハックする：温度とプロンプトの魔術

温度（Temperature）を上げろ

戦略的プロンプティング

競争から「拡張」へ

平均の底上げツールとして

頂点を目指すためのブースターとして

関連する事物

テーマ

この記事はいかがでしたか？

「奇跡の全固体電池」はリチウムイオン電池だった――Donut Lab疑惑、電気化学的証拠が決定打に

電気抵抗ゼロで空を飛ぶ。ストラスクライド大が実証した超伝導航空用モーターの破壊力

AIチップの熱問題を救う新構造。抵抗を50分の1にし次世代「テルル半導体」の実用化を加速させるブレイクスルー

DDR4プラットフォームが再び増産へ、AIメモリ不足でPC自作の前提が変わり始めた

2027年のNAND不足悪化で、SSD市場は「容量減」と「PCIe 5化」が同時に進む

Microsoftが「Windows Ready Print」を発表：Windows印刷の10年ぶり大改革、2026年7月から段階展開

最新AI「Claude Fable 5」が敗北。55の産業ツールを操る究極の実務ベンチマーク「ALE」でGPT-5.5が首位を獲得した理由

Microsoft AIトップ、AIが仕事を奪うとの前言を撤回：「AIが奪うのは仕事ではなくタスクである」

「奇跡の全固体電池」はリチウムイオン電池だった――Donut Lab疑惑、電気化学的証拠が決定打に

Windows 11、スタートメニューが劇的に速くなる「低遅延プロファイル」を提供開始

創造性を「測定」する科学：拡散的思考への挑戦

創造性のベンチマーク「DAT」とは

第一の衝撃：AIが「平均」を超えた瞬間

「平均」の陥落

モデル間の格差と「退化」の謎

第二の衝撃：不可侵の領域「トップ10%の壁」

「天才」たちの圧倒的優位

なぜAIはトップ層に勝てないのか

単語リストから「物語」へ：複雑な創造性における検証

構造的制約と創造性

AIの創造性をハックする：温度とプロンプトの魔術

温度（Temperature）を上げろ

戦略的プロンプティング

競争から「拡張」へ

平均の底上げツールとして

頂点を目指すためのブースターとして

関連する事物

テーマ

この記事はいかがでしたか？

関連記事

イリヤ・サツケバーが告げる「スケーリング則の終焉」とAI新時代の幕開け：SSIが目指す「真の全能」への道

「あなたは専門家です」プロンプトの罠：役割を与えることが人工知能の知識精度を破壊する

AIの内部に脳の「報酬系」に酷似したシステムを発見：大規模言語モデルの知能を支える1%のドーパミンニューロンと価値回路の正体