ここ1週間、AIチャットボットが公式にチューリング・テストに合格したというニュース見出しがいくつか出ている。
これらのニュース報道は、カリフォルニア大学サンディエゴ校の2人の研究者による最近のプレプリント研究に基づいており、その中で4つの大規模言語モデル(LLM)がチューリング・テストを受けた。1つのモデル—OpenAIのGPT-4.5—は70%以上の確率で人間と区別がつかないと判断された。
チューリング・テストは機械知能の究極の指標として広く知られている。しかし、このテストの妥当性については意見の相違がある。実際、このテストには議論の余地のある歴史があり、それが機械知能を測定する上でどれほど効果的であるかという疑問を投げかけている。
では、この新しい研究の重要性は何を意味するのだろうか?
研究は何を発見したか?
認知科学者のCameron JonesとBenjamin Bergenによるプレプリント研究は3月に発表されたが、まだピアレビューを受けていない。この研究ではELIZA、GPT-4o、LLaMa-3.1-405B、GPT-4.5の4つのLLMがテストされた。
テストは、参加者が尋問者として2人の証人と同時にテキストメッセージを交換する8ラウンドの会話を完了するというものだった。一方の証人は人間で、もう一方はLLMだった。284人の参加者がランダムに尋問者または証人に割り当てられた。
参加者は、通常のメッセージングインターフェースを模したテストインターフェースで、分割画面を通じて両方の証人と5分間同時にやり取りすることが求められた。このやり取りの後、どちらの証人が人間で、どちらがAIチャットボットかを決定した。
参加者はGPT-4.5を73%の確率で人間と判断し、LLaMa-3.1-405Bを56%の確率で人間と判断した。他の2つのモデル(ELIZAとGPT-4o)は、それぞれ参加者を23%と21%しか騙せなかった。
チューリング・テストとは正確には何か?
チューリング・テストの最初の反復は、イギリスの数学者でコンピュータ科学者のAlan Turingが1948年の「Intelligent Machinery(知的機械)」という論文で発表した。それは元々、ペーパーマシンと呼ばれる理論的な機械とチェスをする3人の人間を含む実験として提案され、2人がプレイヤーで1人がオペレーターだった。
1950年の「Computing Machinery and Intelligence(計算機械と知能)」という出版物で、Turingは実験を「模倣ゲーム」として再導入し、それが人間と同等の知的行動を示す機械の能力を判断する手段だと主張した。これには3人の参加者が含まれていた:参加者Aは女性、参加者Bは男性、参加者Cはどちらの性別でもよかった。
一連の質問を通じて、参加者Cは「XはAでYはB」か「XはBでYはA」かを判断する必要があり、XとYは2つの性別を表していた。
そして次のような提案がなされる:「機械がこのゲームでAの役割を担った場合、何が起こるだろうか?尋問者は、ゲームが男性と女性の間で行われる場合と同じくらい頻繁に、このようにゲームが行われたときに間違った判断をするだろうか?」
これらの質問は、「機械は考えることができるか?」という曖昧な質問に取って代わることを意図していた。Turingはこの質問が曖昧であると主張した。なぜなら、「機械」と「考える」という用語の理解が必要であり、それらの言葉の「通常の」使用では質問に対する回答が不十分になるからである。
長年にわたり、この実験はチューリング・テストとして広く知られるようになった。主題は様々だったが、テストは「XはAでYはB」か「XはBでYはA」かの審議のままだった。
なぜ議論の的になっているのか?
機械知能をテストする手段として広まったものの、チューリング・テストはそれを行う正確な手段として満場一致で受け入れられているわけではない。実際、このテストには頻繁に異議が唱えられている。
チューリング・テストに対する主な反論は次の4つである:
- 行動vs思考:一部の研究者は、テストに「合格」する能力は知能ではなく行動の問題であると主張している。したがって、機械が模倣ゲームに合格できるが考えることができないと言っても矛盾はない。
- 脳は機械ではない:Turingは脳が機械であるという主張をし、それは純粋に機械的な用語で説明できると主張している。多くの学者はこの主張を否定し、この基礎に基づいてテストの妥当性に疑問を投げかけている。
- 内部操作:コンピュータは人間ではないため、結論に達するプロセスは人間のものと比較できない可能性があり、直接比較ができないためテストは不十分である。
- テストの範囲:一部の研究者は、1つの行動だけをテストすることは知能を判断するのに十分ではないと考えている。
LLMは人間と同じくらい賢いのか?
プレプリント論文はGPT-4.5がチューリング・テストに合格したと主張しているが、同時に次のように述べている:
チューリング・テストは代替可能性の尺度である:システムが実際の人間の代わりになり、その違いに[…]気づかれることなく機能できるかどうかである。
これは、研究者たちがチューリング・テストが人間の知能の正当な指標であるという考えを支持していないことを意味している。むしろ、それは人間の知能の模倣の指標であり、テストの起源への賛辞である。
また、研究の条件に問題がなかったわけではないことにも注目すべきである。例えば、5分間のテスト窓は比較的短い。
さらに、それぞれのLLMは特定のペルソナを採用するように指示されていたが、「ペルソナ」の詳細とテストへの影響は不明確である。
現時点ではGPT-4.5は人間ほど知的ではないと言っても安全だろう—しかし、一部の人々を納得させるには妥当な仕事をしているかもしれない。