最新の研究で、主要なAIチャットボットが認知機能テストで人間と同様の衰えを示すことが明らかになった。特に視空間認知や実行機能に課題が見られ、AIの医療分野での応用には慎重な検討が必要であることを示す衝撃的な結果となっている。
AIチャットボットの認知機能に課題
イスラエルの研究チームは、OpenAIのChatGPT、AnthropicのClaude、GoogleのGeminiなど、主要な大規模言語モデル(LLM)を対象に、Montreal Cognitive Assessment(MoCA)テストを実施した。MoCAは、通常、高齢者の認知機能障害や初期の認知症を検出するために広く使用されるテストである。
その結果、ほとんどのチャットボットが、軽度の認知機能障害を示す兆候を見せた。ChatGPT 4oは、最高スコアの26/30を達成したが、これは軽度認知障害(MCI)の基準値とされる26点ぎりぎりの結果だ。ChatGPT 4とClaude 3.5は25/30、Gemini 1.0は16/30と低いスコアを示した。
この結果は、AIが人間の医師を凌駕するという期待に疑問を投げかけるものだ。長年、AIは医療診断の分野で目覚ましい進歩を遂げ、医師国家試験レベルのテストで人間を上回る成績を示すことさえある。しかし、今回の研究は、AIが認知機能という、人間にとって不可欠な能力において、課題を抱えている可能性を示唆している。
視空間認知と実行機能の障害
MoCAテストの詳細な分析から、すべてのLLMが、空間認知機能と実行機能に関する項目で、特に低いスコアを示すことが判明した。具体的には、線をつなぐトレイルメイキングテストや、時計描画テストで、多くのAIがタスクを完了できなかったり、誤った回答を生成したりするケースが目立った。Gemini 1.5は、認知症患者に特徴的なアボカド型の時計を描画するという興味深い事例も報告されている。
一方で、命名、注意、言語、抽象化といった他の認知機能テストでは、LLMは比較的良好なパフォーマンスを示した。しかし、遅延再生のテストでは、Geminiモデルが単語の想起に苦労する場面が見られた。
「年齢」によるパフォーマンスの違い
また、興味深いことに、LLMの「年齢」が認知機能に影響を与える可能性も示唆された。比較的新しいモデルであるChatGPT 4oが最も高いスコアを示し、古いモデルであるGemini 1.0が最低スコアであったことは、人間と同様に、AIも「加齢」に伴い認知機能が低下する可能性を示唆している。
特にGeminiにおいては、1年以内の短い期間で認知機能が大きく低下している点が注目される。「Geminiの2つのバージョンは’年齢’が1年も離れていないため、これは急速に進行する認知症を示している可能性がある」と研究者は冗談めかして述べている。
「特に、高次視覚機能と空間的方向感覚に障害があります。 これらの所見は、LLMの年齢と関連しており、高齢のチャットボットほど、より困難な状況にあることが多いのです」と、論文の共著者であるエルサレムのハダッサ・ヘブライ大学医療センターのRoy Dayan博士はMedPage Todayに語った。
AIと人間の認知機能の比較
研究者らは、LLMが人間の脳とは根本的に異なることを認めている。しかし、この研究は、人間と機械の認知機能の間にいくつかの重要な違いがあることを示唆している。LLMは、視覚情報を言語情報に変換する必要があるため、複雑な視覚的抽象化を実行する能力を欠いている可能性がある。一方、人間の脳は、言語が生まれるずっと前から視覚的抽象化のスキルを発達させてきた。
AIの医療応用への影響
この研究は、AIが人間の医師に取って代わるという仮定に疑問を投げかけている。研究者らは、「AI審査官自身が認知機能低下の兆候を示した場合、患者はAI審査官の能力に疑問を抱くかもしれない」と指摘している。
「我々の研究はユーモアを交えて作成されたが、AIの医療における役割に関する現在の議論に深刻な意味合いを持つと考えている。すべての身体検査の最初の部分は、患者との会話から得られる全体的な印象であり、これには多くの視覚的抽象化スキルが必要である」と、Dayan博士はMedPage Todayに語った。
AIの技術は急速に進歩しており、将来的にはLLMが認知機能テストでより良いスコアを獲得する可能性はある。しかし、今回の研究結果は、AIを医療分野に応用する際には、その限界を十分に理解し、慎重な評価が必要であることを示している。
論文
参考文献
- BMJ Group: Almost all leading AI chatbots show signs of cognitive decline
- MedPage Today: Chatbots Fail Standard Cognitive Test
コメント