テクノロジー
最先端AIの実際の数学能力はそこまで高くない?新たなFrontierMathベンチマークでは2%未満の解答率となり、AGIへの課題が鮮明に
人工知能(AI)の進化が加速度的な発展を遂げ、画像生成や自然言語処理で人間の能力に迫る成果を上げる中、その限界を鮮明に示す新たな指標が登場した。AI研究機関Epoch AIが開発した高度な数学ベンチマークテスト「Fron […]
GSM-8K(Grade School Math 8K)は、小学校レベルの算数の文章題約8,500問で構成されるベンチマークデータセットである。多段階の推論を必要とする問題が含まれており、AIモデルが論理的なステップを経て正解にたどり着けるかを測定する。近年、多くの最先端AIモデルがこのテストで90%以上のスコアを記録するようになり、ベンチマークとしての飽和が指摘されている。