テクノロジー
「中国最強AI」の性能は偽装か。米政府の未公開テストが暴いたDeepSeek V4 Pro“8ヶ月の遅れ”の真実
AIの真の推論能力を測るため、NIST傘下のCAISIが非公開テストを実施した結果、中国のDeepSeek V4 Proは公開ベンチマークでの自己申告とは異なり、米国の最先端モデルに約8ヶ月の遅れをとっていることが判明した。これは、公開テストへの過剰適合を排除し、米中間のAI技術格差を冷徹に浮き彫りにした評価である。
Stanford Math Tournamentの略。最新の数学競技課題を用いて、AIが高度な数式処理や論理構築をどの程度正確に行えるかを評価する。