テクノロジー
最先端AIの実際の数学能力はそこまで高くない?新たなFrontierMathベンチマークでは2%未満の解答率となり、AGIへの課題が鮮明に
人工知能(AI)の進化が加速度的な発展を遂げ、画像生成や自然言語処理で人間の能力に迫る成果を上げる中、その限界を鮮明に示す新たな指標が登場した。AI研究機関Epoch AIが開発した高度な数学ベンチマークテスト「Fron […]
別名: Claude 3.5 Sonnet
Claude 3.5は、AIスタートアップのAnthropicが開発したAIモデルのシリーズである。特に「Claude 3.5 Sonnet」は、コーディングや複雑な推論、ニュアンスの理解において業界トップクラスの性能を誇る。ユーザーとの自然な対話や視覚情報の解析に優れているが、FrontierMathの評価結果によれば、専門的な数学研究レベルの推論においては既存のAIモデルと同様に限界に直面している。