Term

MATH

別名: MATH benchmark

Overview

MATHは、数学オリンピックやAMC(アメリカ数学競技会)などの問題を含む、中高生レベルの難易度の高い数学問題を集めたデータセットである。代数、幾何、数論など多岐にわたる分野をカバーしており、AIの数学的推論能力を測る標準的な指標として広く利用されてきた。しかし、学習データへの混入(データ汚染)により、実際の能力以上に高いスコアが出ている可能性が議論されている。

Mentioned Articles

1 件