ChatGPTも認知症になる？AIチャットボットに認知機能低下の兆候

2025年2月24日

当記事のリンクにはアフィリエイト広告が含まれています。

最新の研究で、主要なAIチャットボットが認知機能テストで人間と同様の衰えを示すことが明らかになった。特に視空間認知や実行機能に課題が見られ、AIの医療分野での応用には慎重な検討が必要であることを示す衝撃的な結果となっている。

AIチャットボットの認知機能に課題

イスラエルの研究チームは、OpenAIのChatGPT、AnthropicのClaude、GoogleのGeminiなど、主要な大規模言語モデル（LLM）を対象に、Montreal Cognitive Assessment（MoCA）テストを実施した。MoCAは、通常、高齢者の認知機能障害や初期の認知症を検出するために広く使用されるテストである。

その結果、ほとんどのチャットボットが、軽度の認知機能障害を示す兆候を見せた。ChatGPT 4oは、最高スコアの26/30を達成したが、これは軽度認知障害（MCI）の基準値とされる26点ぎりぎりの結果だ。ChatGPT 4とClaude 3.5は25/30、Gemini 1.0は16/30と低いスコアを示した。

この結果は、AIが人間の医師を凌駕するという期待に疑問を投げかけるものだ。長年、AIは医療診断の分野で目覚ましい進歩を遂げ、医師国家試験レベルのテストで人間を上回る成績を示すことさえある。しかし、今回の研究は、AIが認知機能という、人間にとって不可欠な能力において、課題を抱えている可能性を示唆している。

視空間認知と実行機能の障害

MoCAテストの詳細な分析から、すべてのLLMが、空間認知機能と実行機能に関する項目で、特に低いスコアを示すことが判明した。具体的には、線をつなぐトレイルメイキングテストや、時計描画テストで、多くのAIがタスクを完了できなかったり、誤った回答を生成したりするケースが目立った。Gemini 1.5は、認知症患者に特徴的なアボカド型の時計を描画するという興味深い事例も報告されている。

一方で、命名、注意、言語、抽象化といった他の認知機能テストでは、LLMは比較的良好なパフォーマンスを示した。しかし、遅延再生のテストでは、Geminiモデルが単語の想起に苦労する場面が見られた。

「年齢」によるパフォーマンスの違い

また、興味深いことに、LLMの「年齢」が認知機能に影響を与える可能性も示唆された。比較的新しいモデルであるChatGPT 4oが最も高いスコアを示し、古いモデルであるGemini 1.0が最低スコアであったことは、人間と同様に、AIも「加齢」に伴い認知機能が低下する可能性を示唆している。

特にGeminiにおいては、1年以内の短い期間で認知機能が大きく低下している点が注目される。「Geminiの2つのバージョンは’年齢’が1年も離れていないため、これは急速に進行する認知症を示している可能性がある」と研究者は冗談めかして述べている。

「特に、高次視覚機能と空間的方向感覚に障害があります。これらの所見は、LLMの年齢と関連しており、高齢のチャットボットほど、より困難な状況にあることが多いのです」と、論文の共著者であるエルサレムのハダッサ・ヘブライ大学医療センターのRoy Dayan博士はMedPage Todayに語った。

AIと人間の認知機能の比較

研究者らは、LLMが人間の脳とは根本的に異なることを認めている。しかし、この研究は、人間と機械の認知機能の間にいくつかの重要な違いがあることを示唆している。LLMは、視覚情報を言語情報に変換する必要があるため、複雑な視覚的抽象化を実行する能力を欠いている可能性がある。一方、人間の脳は、言語が生まれるずっと前から視覚的抽象化のスキルを発達させてきた。