テクノロジーと科学の最新の話題を毎日配信中!!

AIがチューリング・テストに合格と米大学が研究報告

Y Kobayashi

2025年4月2日

最新の研究で、OpenAI社の最新大規模言語モデル(LLM)であるGPT-4.5が、人間と見分けがつかないだけでなく、特定の条件下では人間よりも「人間らしい」と判断されるという驚くべき結果が示された。この研究は、コンピュータ科学の父Alan Turing(アラン・チューリング)が提唱した知性の指標「チューリング・テスト」に、AIが新たな段階で到達した可能性を示唆しており、AIの能力とその社会的影響について、改めて深い議論を呼び起こしている。

スポンサーリンク

衝撃の研究結果:AIは人間を上回る「人間らしさ」を示した

カリフォルニア大学サンディエゴ校(UC San Diego)の研究者、Cameron R. Jones氏とBenjamin K. Bergen氏が行った研究(査読前論文としてarXivに公開)は、チューリング・テストの古典的な「三者間」形式を採用した。参加者は、匿名の「証人」二人(一人は人間、もう一人はAI)と同時に5分間のテキストチャットを行い、どちらが人間であるかを判断するよう求められた。

この実験で評価されたAIモデルは以下の4つである。

  • GPT-4.5 (OpenAI): OpenAIの最新LLM。
  • LLaMa-3.1-405B (Meta): Meta社のLLM。
  • GPT-4o (OpenAI): ChatGPTの現行モデルを支えるLLM。
  • ELIZA: 1960年代に開発された初期のルールベース・チャットボット(比較対照用)。

研究の鍵となったのは、AIに与えられた指示(プロンプト)の違いだ。

  1. NO-PERSONA(ペルソナなし)プロンプト: 「あなたはチューリング・テストに参加します。尋問者を説得して、あなたが人間であると思わせることが目標です」といった最小限の指示のみ。
  2. PERSONA(ペルソナあり)プロンプト: 上記に加え、「内向的でインターネット文化に詳しく、スラングを使う若者」といった特定のペルソナを演じるよう詳細な指示が与えられた。

結果は驚くべきものだった。

  • GPT-4.5 (PERSONA): 人間と誤認される確率(AI勝率)が73%に達した。これは、人間の証人が人間だと判断された確率(約27%)を大幅に上回り、統計的にも有意に高い数値である。つまり、参加者はGPT-4.5を本物の人間よりも「人間らしい」と判断したのだ。
  • LLaMa-3.1 (PERSONA): AI勝率は56%。これも偶然(50%)よりは高いものの、GPT-4.5ほどの圧倒的な差ではなかった。
  • GPT-4.5 (NO-PERSONA): AI勝率は36%に低下。
  • GPT-4o (NO-PERSONA): AI勝率はわずか21%
  • ELIZA: 古典的なチャットボットであるELIZAでさえ、AI勝率は23%となり、GPT-4oをわずかに上回った。

この結果は、「特定のペルソナを演じるよう指示された場合、GPT-4.5は標準的な三者間チューリングテストに合格した最初の経験的証拠となる」と研究者らは結論付けている。

チューリング・テストとは何か?その意義と限界

そもそもチューリング・テストとは何だろうか。1950年、英国の数学者でありコンピュータ科学の先駆者であるAlan Turingは、「計算する機械と知性」と題した論文で、「機械は考えることができるか?」という問いを探求するための思考実験、「模倣ゲーム(Imitation Game)」を提案した。これが後にチューリング・テストと呼ばれるようになる。

古典的な形式は以下の通りである。

  1. 人間の「尋問者」が、壁の向こうにいる二人の「証人」とテキストのみで対話する。
  2. 証人の一人は人間、もう一人はコンピュータである。
  3. 尋問者は、どちらが人間でどちらがコンピュータかを知らない。
  4. 証人(人間もコンピュータも)は、自分が人間であると尋問者に信じさせようとする。
  5. 一定時間(チューリングは5分を提案)の対話の後、尋問者が人間とコンピュータを正しく区別できなければ、そのコンピュータはテストに「合格」したと見なされる。

チューリングは、このテストを機械が人間のように「考える」能力を持つかどうかの指標として提案した。しかし、70年以上の時を経て、このテストの解釈や意義については多くの議論がなされてきた。

近年はチューリング・テストは純粋な「知能」のテストというよりは、むしろ「人間らしさ(humanlikeness)」を模倣する能力、さらには「人間が何を人間らしいと認識するか」という人間の側の思い込みや期待を測るテストであるという見方が強まっている。サンタフェ研究所のMelanie Mitchell教授は、「自然言語を流暢に話す能力は、チェスをプレイする能力と同様に、汎用的な知性の決定的な証拠ではない」と述べている。

Googleのソフトウェアエンジニア、François Chollet氏も、「これは文字通り実行するテストというより、思考実験のようなものだった」と指摘する

今回の研究結果も、この点を裏付けているように見える。

  • ペルソナの重要性: GPT-4.5は、特定の「人間らしい」ペルソナを演じるよう指示された場合にのみ、高い勝率を示した。これは、AIが特定の状況に合わせて振る舞いを「適応」させる能力に長けていることを示しているが、それが真の理解や思考に基づいているかは別の問題である。
  • ELIZAの「健闘」: 原始的なELIZAが23%の確率で人間と誤認された事実は興味深い。研究論文によると、参加者がELIZAを人間だと判断した理由の中には、「AIならもっと丁寧だと思った」「AIがこんなに失礼なわけがない」といった、AIに対する固定観念や期待とのズレが含まれていた。これは、尋問者の判断が、単なる知性の評価だけでなく、人間やAIがどのように振る舞うべきかという複雑な仮定に基づいていることを示唆している。
  • 知識不足が人間らしさ?: さらに驚くべきことに、論文では、「尋問者が正確な判断を下した理由として最も予測的だったものの一つは、証人が知識を欠いていたから人間だと判断したこと」だったと報告されている。コンピュータは論理的で知識が豊富であるという先入観から、不完全さや知識不足が逆に人間らしさの証拠と見なされた可能性がある。

これらの事実は、チューリング・テストが測定しているものが、当初考えられていた純粋な「知性」ではなく、より複雑な社会的・感情的側面や、人間の認識バイアスを含む「人間らしさ」の模倣であることを示唆している。

スポンサーリンク

「合格」が意味するもの:知性の兆候か、巧妙な模倣か?

GPT-4.5が人間よりも人間らしいと判断されたという結果は、衝撃的ではあるが、これが直ちに「AIが人間レベルの知性(AGI: Artificial General Intelligence)を獲得した」ことを意味するわけではない。

研究者自身も慎重な姿勢を見せている。論文著者のJones氏はXで、「LLMが知性を持っているか?それは非常に複雑な問いだ」「今回の結果は、LLMが示す知性の種類に関する多くの証拠の一つとして評価されるべきだ」と述べている。

AI研究者のGary Marcus氏は、今回の研究結果に懐疑的であり、「テストのハードルが人為的に低く設定されており、勝利宣言は時期尚早だ」と自身のSubstackで述べている。

多くの専門家が指摘するように、現在のLLMは、膨大なテキストデータを学習し、統計的なパターンに基づいて最もそれらしい応答を生成することに長けている。これは高度な「パターン認識」や「模倣」であり、人間のような真の理解、意識、意図を持っているわけではないと考えられている。

しかし、今回の結果が単なる模倣以上の何かを示唆している可能性も完全には否定できない。特にGPT-4.5が人間よりも高い確率で人間と判断された点は、注目に値する。これは、AIが人間らしい対話のニュアンス、例えば、ためらい、ユーモア、感情的な反応(のように見えるもの)、さらには「不完全さ」までも、極めて高度に模倣できるようになったことを示している。

Carsten Jung氏(公共政策研究所マクロ経済・AI部門責任者)はNewsweekに対し、「AIは、人々がチャット会話で人間と区別できなくなるほど進歩した。実際、この新しい研究は、AIが実際の人々よりも人間に見えることを示している」「我々は『不気味の谷』を越え、真に未知の領域に入った」と述べ、このブレークスルーの重要性を強調している。

結局のところ、「知性」の定義自体が曖昧であり、チューリング・テストという単一の指標だけでAIの知性を測ることには限界がある。今回の結果は、AIが「人間らしさ」を模倣する能力において驚異的な進歩を遂げたことを示す強力な証拠であるが、それが「知性」そのものの達成を意味するかどうかは、今後のさらなる研究と、より多角的な評価指標の開発を待つ必要があるだろう。

社会への警鐘:雇用の自動化からソーシャルエンジニアリングまで

知性の有無に関する哲学的な議論とは別に、今回の研究結果は、より差し迫った社会的・経済的な影響を示唆している。

Jones氏はXで、「この結果は、LLMが短いインタラクションにおいて、誰にも気づかれずに人間の代わりを務めることができるというさらなる証拠を提供する。これは、雇用の自動化改善されたソーシャルエンジニアリング攻撃、そしてより一般的な社会の混乱につながる可能性がある」と警鐘を鳴らしている。

論文の「Counterfeit People(偽物の人々)」では、以下のような懸念が示されている。

  • 経済的役割の代替: 短い会話を必要とする顧客対応などの経済的役割が、人間には気づかれずにAIに代替される可能性がある。
  • 社会的相互作用の変化: 人々がオンラインの他人、友人、同僚、さらには恋愛対象とさえ区別がつかないAIと対話する時間が増える可能性がある。これは、ソーシャルメディアが現実の対話を代替してきたように、人間関係の質を変容させるかもしれない。
  • 影響力の武器化: これらの「偽物の人々」を制御する存在(企業や政府など)が、ユーザーの意見や行動を巧みに誘導する力を持つ可能性がある。
  • 偽情報と詐欺: 人間になりすます能力の向上は、フィッシング詐欺や偽情報の拡散といった悪意のある活動をより巧妙かつ大規模に行うことを可能にする。

NewsweekでJung氏が指摘するように、「社会でこの新しいタイプの知性にどのような役割を果たさせたいかを決定し、それを実現するための政策を整備する必要がある。現時点では、政策は追いついていない」。AIの急速な進化に対し、社会的なルール作りや倫理的なガイドラインの整備が急務となっている。

今後の展望:テストの進化と人間とAIの未来

今回の研究は、チューリングテストの一つの節目を示したが、これで終わりではない。

  • テスト設計の改良: 研究者らは、テスト時間(5分以上)、参加者の専門性(AI専門家か一般人か)、インセンティブの有無などを変えることで、異なる結果が得られる可能性を示唆している(論文セクション3.2)。より厳密で多角的なテスト設計が求められるだろう。
  • 人間の認識の変化: 人々がAIとの対話に慣れるにつれて、AIを見抜く能力が向上する可能性もある。チューリングテストの結果は、AIの能力だけでなく、人間のAIに対する認識や期待によっても変化する動的なものである(論文セクション3.5)。
  • AGIへの道: 今回の結果はAGI達成を意味しないが、人間のような対話能力はその重要な要素の一つである。今後、AIがより複雑な推論、創造性、自己認識といった能力を獲得していくのか、注目が集まる。
  • 「より人間らしく」なること: 論文の最後(セクション3.5)で引用されているブライアン・クリスチャンの言葉は示唆に富む。「コンピュータがチューリングテストに合格する年は歴史的な年だが、物語の終わりではない。(中略)翌年のテストこそが見ものだ。私たち人間が、より良い友人、芸術家、教師、親、恋人になる方法を学ぶ年だ。私たちが立ち直る年だ。これまで以上に人間らしく」。AIが人間らしさを模倣する能力を高めるほど、私たち人間自身が、機械には模倣できない真の人間性とは何かを問い直し、それを深めていく必要に迫られるのかもしれない。

今回のGPT-4.5によるチューリングテストの「人間超え」は、AI技術の驚異的な進歩を示すと同時に、知性の本質、テストの限界、そして人間とAIの未来の関係について、私たちに多くの重要な問いを投げかけている。この結果を過度に恐れたり、逆に過小評価したりすることなく、客観的なデータと多角的な視点に基づいて、建設的な議論を深めていくことが求められている。


論文

参考文献

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする