古代ローマの墓石に刻まれたパルミラ文字をどう翻訳するか? ハチドリの特定の種子骨は、何対の腱を支えているのか? チベリア式発音の伝統に関する最新の学術研究に基づいて、聖書ヘブライ語の閉音節を特定できるか?

これらは、今週 Nature 誌に発表された 研究 で紹介された新しいベンチマーク、「Humanity’s Last Exam(人類最後の試験)」に含まれる質問の一部だ。この 2,500 の質問からなるコレクションは、現在の人工知能(AI)システムに何ができないのか、その限界を探るために特別に設計されている。

このベンチマークは、多岐にわたる学術分野の約 1,000 人の国際的な専門家によるグローバルなコラボレーションの成果だ。これらの学者や研究者は、人類の知識の最前線にある質問を提供した。問題は、数学、物理学、化学、生物学、コンピュータサイエンス、および人文科学における大学院レベルの専門知識を必要とするものだった。重要なのは、すべての質問が採用前に主要な AI モデルに対してテストされたことだ。テスト設計時点でAIが正しく回答できなかった問題は、却下されている。

このプロセスは、初期の結果が他のベンチマークと大きく異なっていた理由を説明している。AI チャットボットは 一般的なテスト では 90% 以上のスコアを記録しているが、2025 年初頭に Humanity’s Last Exam が最初に公開されたとき、主要なモデルはひどく苦戦した。GPT-4o の正解率はわずか 2.7% だった。Claude 3.5 Sonnet は 4.1% を記録した。OpenAI の最も強力なモデルである o1 でさえ、わずか 8% しか達成できなかった。

この低いスコアこそが要だった。このベンチマークは、AI の理解を超えた領域に残されているものを測定するために構築されたのだ。そして、一部のコメンテーターは、Humanity’s Last Exam のようなベンチマークが、汎用人工知能(AGI)、あるいは超知能(すなわち、人間または超人間レベルであらゆるタスクを実行できる AI システム)への道筋を示していると主張しているが、私たちはこれが 3 つの理由から間違っていると考えている。

AD

ベンチマークはタスクのパフォーマンスを測定するものであり、知能ではない

学生が司法試験で良い成績を収めた場合、その学生が有能な弁護士になると合理的に予測できる。なぜなら、この試験は人間が法律実務に必要な知識と推論能力を習得しているかどうかを評価するために設計されているからであり、人間にとってはその仕組みが確かに機能するからだ。合格に必要な理解力は、まさに仕事に活かせる。

しかし、AI システムはキャリアの準備をしている人間ではない。

大規模言語モデル(LLM)が司法試験で良い成績を収めたとしても、それはモデルが法律に関する質問に対して正しそうに見える回答を生成できることを示しているにすぎない。モデルが法律を理解していることや、不安を抱えるクライアントに助言できること、あるいは曖昧な状況で専門的な判断を下せることを示しているわけではないのだ。

このテストは、人間にとっては現実的なものを測定するが、AI にとってはテストそのもののパフォーマンスしか測定していない。

AIのベンチマークに人間の能力テストを用いるのは一般的な手法ですが、根本的に誤解を招くものである。テストのスコアが高いからといって、機械がより人間に近づいたと決めつけるのは、計算機が人間よりも速く方程式を解けるからといって数学を「理解している」と結論付けるのと同じような、分類ミスなのだ。

人間と機械の知能は根本的に異なる

人間は経験から絶えず学んでいく。私たちには意図、ニーズ、そして目標がある。私たちは人生を生き、肉体を持ち、世界を直接体験する。私たちの知能は、生物としての生存と社会的な生き物としての成功に役立つように進化した。

しかし、AI システムは 非常に異なっている

大規模言語モデルは、トレーニング中のテキストのパターンから能力を引き出す。しかし、それらは実際には学習していない

人間にとって知能は第一義的なものであり、言語はコミュニケーションのためのツールとして機能する。知能は言語以前のものだ。しかし、大規模言語モデルにとっては言語こそが知能であり、その背後には何もない。

Humanity’s Last Exam の作成者でさえ、この限界を 認めている

[Humanity’s Last Exam] における高い正解率は、完結型で検証可能な質問および最先端の科学的知識に関する専門家レベルのパフォーマンスを実証するだろうが、それだけで自律的な研究能力や汎用人工知能を示唆するものではない。

Arizona State University の教授であり、Association for the Advancement of Artificial Intelligence の元会長である Subbarao Kambhampati は、より明確に述べている

人類の本質は静的なテストによって捉えられるものではなく、むしろ進化し、以前は想像もできなかった問題に取り組む能力によって捉えられるものである。

AD

開発者はリーダーボードを好む

もう 1 つ問題がある。AI 開発者は、リーダーボードでのパフォーマンス向上のためにベンチマークを用いてモデルを最適化している。彼らは本質的に試験のために詰め込み勉強をしているのだ。試験に向けた学習が理解を深める人間とは異なり、AIの最適化は特定の試験でより優れた成績を収めることを意味するだけである。

しかし、それは機能している。

Humanity’s Last Exam が 2025 年初頭にオンラインで公開されて以来、スコアは劇的に上昇した。現在、Gemini 3 Pro Preview が正解率 38.3% でリーダーボードのトップに立ち、GPT-5 が 25.3%、Grok 4 が 24.5% で続いている。

この改善は、これらのモデルが人間の知能に近づいていることを意味するのだろうか? いや、違う。それは、試験に含まれる種類の質問に対してより上手になったことを意味するだけだ。ベンチマークは、最適化すべきターゲットになってしまったのである。

業界はこの問題を認識しつつある。

OpenAI は最近、GDPval と呼ばれる指標を導入した。これは現実世界での有用性を評価するために特別に設計されたものだ。

アカデミックなスタイルのベンチマークとは異なり、GDPval は、専門的な環境に存在するプロジェクト文書、データ分析、成果物などの実際の作業成果物に基づくタスクに焦点を当てている。

これがあなたにとって何を意味するのか

仕事で AI ツールを使用している場合、または導入を検討している場合、ベンチマークのスコアに左右されてはならない。Humanity’s Last Exam で優秀な成績を収めたモデルでも、あなたが必要とする特定のタスクでは苦戦する可能性がある。

また、この試験の質問が特定の領域に大きく偏っていることにも注目すべきだ。数学だけでベンチマークの 41% を占めており、物理学、生物学、コンピュータサイエンスが残りの大部分を占めている。あなたの仕事が執筆、コミュニケーション、プロジェクト管理、またはカスタマーサービスに関わるものである場合、この試験はどのモデルが最も役に立つかについてほとんど何も教えてくれない。

現実的なアプローチとしては、AIに実際に何を期待するかに基づいて独自のテストを作成し、その後、自分にとって重要な基準に照らして新しいモデルを評価することだ。AIシステムは確かに有用だが、超知能に関する議論はSFの域を出ず、これらのツールを人々の生活に役立てるという現実的な取り組みから目を逸らすものとなっている。


本記事は、シドニー大学 情報技術・組織学教授 Kai Riemer氏、シドニー大学ビジネススクール シドニー・エグゼクティブ・プラス ディレクター Sandra Peter氏によって執筆され、The Conversationに掲載された記事「AI is failing ‘Humanity’s Last Exam’. So what does that mean for machine intelligence?」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。