テクノロジー
最先端AIの実際の数学能力はそこまで高くない?新たなFrontierMathベンチマークでは2%未満の解答率となり、AGIへの課題が鮮明に
人工知能(AI)の進化が加速度的な発展を遂げ、画像生成や自然言語処理で人間の能力に迫る成果を上げる中、その限界を鮮明に示す新たな指標が登場した。AI研究機関Epoch AIが開発した高度な数学ベンチマークテスト「Fron […]
別名: MATH benchmark
MATHは、数学オリンピックやAMC(アメリカ数学競技会)などの問題を含む、中高生レベルの難易度の高い数学問題を集めたデータセットである。代数、幾何、数論など多岐にわたる分野をカバーしており、AIの数学的推論能力を測る標準的な指標として広く利用されてきた。しかし、学習データへの混入(データ汚染)により、実際の能力以上に高いスコアが出ている可能性が議論されている。