Term

SMT 2025

Overview

Stanford Math Tournamentの略。最新の数学競技課題を用いて、AIが高度な数式処理や論理構築をどの程度正確に行えるかを評価する。

Mentioned Articles

1 件

テクノロジー
「中国最強AI」の性能は偽装か。米政府の未公開テストが暴いたDeepSeek V4 Pro“8ヶ月の遅れ”の真実

AIの真の推論能力を測るため、NIST傘下のCAISIが非公開テストを実施した結果、中国のDeepSeek V4 Proは公開ベンチマークでの自己申告とは異なり、米国の最先端モデルに約8ヶ月の遅れをとっていることが判明した。これは、公開テストへの過剰適合を排除し、米中間のAI技術格差を冷徹に浮き彫りにした評価である。

2026年5月3日

External Mentions

10 件

arXiv Parallel SMT Solving via Dynamic Partitioning, Core-Guided Pruning, and Online Backbone Detection
▲ 0 Ilana Shapiro 2026年6月7日
arXiv ESBMC: A Survey of Its Evolution, Integration, and Future Directions in Formal Software Verification
▲ 0 Pierre Dantas 2026年5月25日
arXiv From Finite Enumeration to Universal Proof: Ring-Theoretic Foundations for PQC Hardware Masking Verification
▲ 0 Ray Iskander 2026年4月20日
arXiv Large Language Models Imitate Logical Reasoning, but at what Cost?
▲ 0 Lachlan McGinness 2025年9月16日
arXiv Quantifier Instantiations: To Mimic or To Revolt?
▲ 0 Jan Jakubův 2025年8月19日
Hacker News The Pragmatic Open Source Contributor
▲ 66 diurnalist 2025年3月29日
Hacker News Resigning as Asahi Linux project lead
▲ 1116 Shank 2025年2月13日
Hacker News My Favorite Self-Hosted Apps Launched in 2024
▲ 119 beardicus 2025年1月9日
Hacker News Sending audio to LKV373 HDMI extenders (2021)
▲ 79 luu 2023年7月3日
Hacker News Reversing UK mobile rail tickets
▲ 484 076ae80a-3c97-4 2023年2月3日