ここ1週間、AIチャットボットが公式にチューリング・テストに合格したというニュース見出しがいくつか出ている。

これらのニュース報道は、カリフォルニア大学サンディエゴ校の2人の研究者による最近のプレプリント研究に基づいており、その中で4つの大規模言語モデル（LLM）がチューリング・テストを受けた。1つのモデル—OpenAIのGPT-4.5—は70%以上の確率で人間と区別がつかないと判断された。

チューリング・テストは機械知能の究極の指標として広く知られている。しかし、このテストの妥当性については意見の相違がある。実際、このテストには議論の余地のある歴史があり、それが機械知能を測定する上でどれほど効果的であるかという疑問を投げかけている。

では、この新しい研究の重要性は何を意味するのだろうか？

研究は何を発見したか？

認知科学者のCameron JonesとBenjamin Bergenによるプレプリント研究は3月に発表されたが、まだピアレビューを受けていない。この研究ではELIZA、GPT-4o、LLaMa-3.1-405B、GPT-4.5の4つのLLMがテストされた。

テストは、参加者が尋問者として2人の証人と同時にテキストメッセージを交換する8ラウンドの会話を完了するというものだった。一方の証人は人間で、もう一方はLLMだった。284人の参加者がランダムに尋問者または証人に割り当てられた。

参加者は、通常のメッセージングインターフェースを模したテストインターフェースで、分割画面を通じて両方の証人と5分間同時にやり取りすることが求められた。このやり取りの後、どちらの証人が人間で、どちらがAIチャットボットかを決定した。

参加者はGPT-4.5を73%の確率で人間と判断し、LLaMa-3.1-405Bを56%の確率で人間と判断した。他の2つのモデル（ELIZAとGPT-4o）は、それぞれ参加者を23%と21%しか騙せなかった。

チューリング・テストとは正確には何か？

チューリング・テストの最初の反復は、イギリスの数学者でコンピュータ科学者のAlan Turingが1948年の「Intelligent Machinery（知的機械）」という論文で発表した。それは元々、ペーパーマシンと呼ばれる理論的な機械とチェスをする3人の人間を含む実験として提案され、2人がプレイヤーで1人がオペレーターだった。

1950年の「Computing Machinery and Intelligence（計算機械と知能）」という出版物で、Turingは実験を「模倣ゲーム」として再導入し、それが人間と同等の知的行動を示す機械の能力を判断する手段だと主張した。これには3人の参加者が含まれていた：参加者Aは女性、参加者Bは男性、参加者Cはどちらの性別でもよかった。

一連の質問を通じて、参加者Cは「XはAでYはB」か「XはBでYはA」かを判断する必要があり、XとYは2つの性別を表していた。

そして次のような提案がなされる：「機械がこのゲームでAの役割を担った場合、何が起こるだろうか？尋問者は、ゲームが男性と女性の間で行われる場合と同じくらい頻繁に、このようにゲームが行われたときに間違った判断をするだろうか？」

これらの質問は、「機械は考えることができるか？」という曖昧な質問に取って代わることを意図していた。Turingはこの質問が曖昧であると主張した。なぜなら、「機械」と「考える」という用語の理解が必要であり、それらの言葉の「通常の」使用では質問に対する回答が不十分になるからである。

長年にわたり、この実験はチューリング・テストとして広く知られるようになった。主題は様々だったが、テストは「XはAでYはB」か「XはBでYはA」かの審議のままだった。

なぜ議論の的になっているのか？

機械知能をテストする手段として広まったものの、チューリング・テストはそれを行う正確な手段として満場一致で受け入れられているわけではない。実際、このテストには頻繁に異議が唱えられている。

チューリング・テストに対する主な反論は次の4つである：

行動vs思考：一部の研究者は、テストに「合格」する能力は知能ではなく行動の問題であると主張している。したがって、機械が模倣ゲームに合格できるが考えることができないと言っても矛盾はない。
脳は機械ではない：Turingは脳が機械であるという主張をし、それは純粋に機械的な用語で説明できると主張している。多くの学者はこの主張を否定し、この基礎に基づいてテストの妥当性に疑問を投げかけている。
内部操作：コンピュータは人間ではないため、結論に達するプロセスは人間のものと比較できない可能性があり、直接比較ができないためテストは不十分である。
テストの範囲：一部の研究者は、1つの行動だけをテストすることは知能を判断するのに十分ではないと考えている。

LLMは人間と同じくらい賢いのか？

プレプリント論文はGPT-4.5がチューリング・テストに合格したと主張しているが、同時に次のように述べている：

チューリング・テストは代替可能性の尺度である：システムが実際の人間の代わりになり、その違いに[…]気づかれることなく機能できるかどうかである。

これは、研究者たちがチューリング・テストが人間の知能の正当な指標であるという考えを支持していないことを意味している。むしろ、それは人間の知能の模倣の指標であり、テストの起源への賛辞である。

また、研究の条件に問題がなかったわけではないことにも注目すべきである。例えば、5分間のテスト窓は比較的短い。

さらに、それぞれのLLMは特定のペルソナを採用するように指示されていたが、「ペルソナ」の詳細とテストへの影響は不明確である。

現時点ではGPT-4.5は人間ほど知的ではないと言っても安全だろう—しかし、一部の人々を納得させるには妥当な仕事をしているかもしれない。

本記事は、オーストラリア国立大学工学部上級講師Zena Assaad氏によって執筆され、The Conversationに掲載された記事「ChatGPT just passed the Turing test. But that doesn’t mean AI is now as smart as humans」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。

ChatGPTがチューリング・テストに合格したが、AIが人間と同じくらい賢くなったことを意味するわけではない

研究は何を発見したか？

チューリング・テストとは正確には何か？

なぜ議論の的になっているのか？

LLMは人間と同じくらい賢いのか？

関連する事物

この記事はいかがでしたか？

光子を半分に切断すると何が起きる？物理学者が想像もしなかった奇妙な結末

フィンランドが海底ケーブル防衛を実証。錨引きずりを検知するセンサー網により”切断後の復旧”から”切断前の警報”へ

「奇跡の全固体電池」はリチウムイオン電池だった――Donut Lab疑惑、電気化学的証拠が決定打に

ベルギー発の全固体電池、液体電解質ゼロで465Wh/kgを達成

Microsoft AIトップ、AIが仕事を奪うとの前言を撤回：「AIが奪うのは仕事ではなくタスクである」

白金はもう要らない？東北大が開発した「鉄ベース触媒」が亜鉛空気電池の常識を覆す

Linux 7.1安定版リリース：新NTFSドライバの実装と次世代Intel・AMDハードウェア向け最適化

光子を半分に切断すると何が起きる？物理学者が想像もしなかった奇妙な結末

伝送容量を5倍に拡張する「3バンド・マルチコア光ファイバー」の商用化がもたらすAIインフラの構造的変革

フィンランドが海底ケーブル防衛を実証。錨引きずりを検知するセンサー網により”切断後の復旧”から”切断前の警報”へ

研究は何を発見したか？

チューリング・テストとは正確には何か？

なぜ議論の的になっているのか？

LLMは人間と同じくらい賢いのか？

関連する事物

この記事はいかがでしたか？

関連記事

スタンフォード大学が「AI Index Report 2025」を発表：技術進化と投資が過去最高、米中の競争激化

AIは名探偵になれるか？逆転裁判を使った最新AIモデルの推論能力テストで見えた人間とAIの差

Microsoft CEO、同社コードの30%をAIが生成と報告、今後も増加を予測