OpenAIが先日発表した「GPT-4o」のデモビデオを見たとき、正直なところそれがAIの音声なのだとはにわかには信じられなかった。
AIの反応が人間と区別が付かないレベルであるかを判断する「チューリング・テスト」に合格するAIの登場も間近なのかと戦慄したが、どうやら新たな研究によると、その前身となる「GPT-4」の段階で人々は相手が人間なのかAIなのかを区別できなかったようだ。
だが同時に、この研究の結果は、古典的なチューリング・テストとその意味について新たな疑問を投げかけるものであり、改めて人間レベルのAIとは何なのか考え直す必要を提示するものでもある。
GPT-4は54%の評価者が人間だと判断した
イギリスの数学者Alan Turingによる有名な思考実験「チューリング・テスト」は1950年に『Computing Machinery and Intelligence』の中で登場したものだ。相手が人間か機械かを伏せられた状態で、対話者はどちらが人間でどちらが機械かを答えるが、これに答えられない場合、“機械は人間並みである”と判定される。これは、機械が思考できるかどうかではなく、「機械は人間的な要素を持っているか」を判断することに焦点を当てて提案された。
今回研究者らはGPT-4を用いたランダム化された対照試験の二人プレイヤー版のチューリング・テストを実施した。その結果、チャットでは参加者が人間とAIのどちらとコミュニケーションを取っているかを自信を持って認識することができなかったのだ。
テストに際し、AIモデルには“典型的な行動を制限”し、人間のように“時折スペルミスをする”事を指示する詳細なプロンプトが設定された。
結果だが、GPT-4は54%の確率で人間と判断された。つまり、参加者の半数以上が5分間の会話後にAIモデルを人間だと考えたのである。これは、古いモデルであるGPT-3.5(50%)や1960年代の単純なルールベースのELIZA参照システム(22%)よりも優れていた。ちなみに面白いのは、相手が人間の場合も67%の評価者が人間だと考えた。つまり、評価者の約3分の1は、相手が人間であるにも関わらず人間をAIだと評価しているのだ。これは、現代のAIシステムは、人間を信じさせることができる能力を持っていることを示唆する物でもあるが、同時に人々がAIが人間のように振る舞うことを知っている場合、評価者は「人間」の基準を非常に高く設定し、本物の人間すらも人間ではないと判断してしまうことを示している。
知能の有無は別として、言語モデルは人を欺くことができる
研究者たちは、参加者が人間と機械を偶然よりもよく区別できなかった場合を成功と定義した。この定義に基づくならば、GPT-4はチューリング・テストに合格したことになる。ちなみに参加者は単に推測していたわけではなく、GPT-4を人間だと考えたときには平均73%の確信を持っていた。
チューリング・テストはしばしば機械知能のベンチマークとされる。だが、このテストにはもともと多くの批判があった。“テストが簡単すぎるか難しすぎる”、“知能を本当に測定しているわけではない”、といったものだ。今回の研究結果は、チューリング・テストが実際に何を測定しているかについての経験的証拠を提供するものだ。参加者はAIを判断するために、知識や論理と言った要素よりも言語スタイルや社会・感情的要因に焦点を当てていた。
しかし、論理、現在の出来事、または人間の感情や経験について質問した参加者は、平均して正解率が高かった。
「この結果は、おそらくより自然な文脈での欺瞞の可能性の下限を示している。実験環境とは異なり、人々は欺瞞の可能性に気づかず、それを検出することに専念していない場合がある」と論文は述べている。人間を信じさせることができるシステムは、例えば以前は人間の従業員に限定されていた顧客対応を引き継ぐことによって、経済的および社会的に広範な影響を与える可能性がある。
しかし、これらのシステムはまた、一般の人々や自分自身の人間オペレーターを誤導し、本物の人間の交流に対する社会的信頼を損なう可能性があると研究者らは述べている。
論文
研究の要旨
我々は、3つのシステム(ELIZA、GPT-3.5、GPT-4)を無作為化、対照、事前登録されたチューリング・テストで評価した。人間の参加者は、人間またはAIと5分間会話し、相手が人間だと思うかどうかを判定した。GPT-4は54%の確率で人間だと判定され、ELIZA(22%)を上回ったが、実際の人間(67%)には遅れをとった。この結果は、どのような人工システムでも対話型2人チューリング・テストに合格することを、初めて実証的に示したものである。この結果は、機械知能をめぐる議論に示唆を与えるものであり、さらに緊急の課題として、現在のAIシステムによる欺瞞が発見されない可能性を示唆している。参加者の戦略と推論を分析した結果、チューリング・テストに合格するためには、従来の知能の概念よりも、文体と社会的感情の要因がより大きな役割を果たすことが示唆された。
コメント