Tech Product

GDPval-AA

別名: GDPval-AA

Overview

GDPval-AAは、AIモデルが知識業務においてどの程度の能力を持つかを測るために使用されるベンチマークです。この評価では、モデルの一般的な知識、推論能力、情報処理能力などが総合的に試されます。Claude Opus 4.8は、GDPval-AAで1890 Eloを記録し、GPT-5.5の1769 Eloを上回りました。この結果は、Opus 4.8が幅広い知識ベースのタスクにおいて、高い性能を発揮できることを示唆しています。

Mentioned Articles

2 件