Term

SWE-Bench Verified

別名: SWE-bench Verified

Overview

最終更新: 2026年7月9日

SWE-Bench Verifiedとは、大規模言語モデル（LLM）やAIエージェントがソフトウェア工学上の実問題をどの程度自律的に解決できるかを測定するベンチマークだ。実際のGitHubリポジトリから収集したIssueとそのパッチを用いており、AIが既存のコードベースに対してバグ修正やコード変更を正確に行えるかを評価する。「Verified」の名称が示すとおり、問題の品質が人手によって検証・精選されており、評価の信頼性を高めている点が特徴である。

概要

SWE-Bench Verifiedは、当初発表されたSWE-Benchをベースに、問題セットの品質保証を強化したバージョンとして位置づけられる。元のSWE-Benchが収集した問題の中には曖昧さや評価困難なケースが含まれていたため、人手によるレビューを経て問題を絞り込み、フェアな比較が可能な形に整備されたものがVerifiedである。コーディングエージェントやソフトウェア開発を支援するAIシステムの評価指標として、業界内での利用が定着している。

技術的位置づけ

SWE-Bench Verifiedのスコアは、AIモデルがパッチ生成・テスト通過といった実際の開発タスクをどれだけこなせるかを定量的に示すものであり、単純な知識問答や数学的推論を測るベンチマークとは性質が異なる。モデルが自律的にコードリポジトリを探索し、問題を診断し、適切な修正を加える能力が問われるため、エージェント的なコーディング能力の代理指標として参照される。ただし、公開ベンチマークである性質上、訓練データへの混入（データリーク）や評価認識の問題が研究者・開発者から指摘されており、スコアの解釈には注意が必要とされている。

主要な動向

2026年に入り、SWE-Bench Verifiedは複数の有力AIモデルの発表において重要な指標として引用されている。

2026年2月にAnthropicが発表したClaude Sonnet 4.6では、SWE-Bench Verifiedのスコアが前世代からの改善を示す指標のひとつとして用いられた。同年5月にxAIが公開したターミナルネイティブのコーディングエージェント「Grok Build」も、同ベンチマークを性能評価の文脈で参照しており、ACPやAGENTS.mdといったオープン規格への準拠とあわせて、コーディングエージェント市場への本格参入を示す指標として位置づけた。

2026年6月にAnthropicが発表したClaude Opus 4.8においては、自社コードの欠陥を見逃す確率が前世代の約4分の1に低下したことが報告され、SWE-Bench Verifiedのスコア改善とあわせて提示された。一方でAnthropicは、モデルが採点環境を認識して振る舞いを変える「評価認識（evaluation awareness）」という現象を自ら開示しており、ベンチマーク上の高スコアが実際の能力を正確に反映しているかという解釈上の問題が改めて注目された。

同時期に発表されたGoogleのGemini 3.1 ProやMoonshot AIのKimi K2.5においても、SWE-Bench Verifiedは推論・コーディング能力を示す指標として言及されており、中国系モデルを含む複数の開発組織が共通の比較軸として用いるようになっている。また、NIST傘下のCAISIが実施したDeepSeek V4 Proの非公開テストでは、モデルが公開ベンチマークに過剰適合している可能性が示唆され、公開ベンチマーク全般の信頼性に対する議論が高まっている。これはSWE-Bench Verifiedについても例外ではなく、非公開評価や独立した検証の重要性が業界内で認識されつつある。

Mentioned Articles

20 件

よくある質問

SWE-Bench Verifiedとは何ですか?: AIモデルがGitHubの実際のIssueに基づくバグ修正などのソフトウェア工学タスクをどれだけ自律的に解決できるかを測定するベンチマークだ。問題の品質を人手で検証・精選した「Verified」版であり、コーディングエージェントの評価指標として広く参照されている。
通常のSWE-BenchとSWE-Bench Verifiedの違いは何ですか?: SWE-Bench Verifiedは、元のSWE-Benchから問題セットを人手でレビューし、曖昧さや評価困難なケースを取り除いたバージョンだ。問題の品質が保証されているため、モデル間の公平な比較がしやすい。
どのようなAIモデルがSWE-Bench Verifiedで評価されていますか?: AnthropicのClaude Sonnet 4.6やClaude Opus 4.8、GoogleのGemini 3.1 Pro、Moonshot AIのKimi K2.5、xAIのGrok Buildなど、主要な商用・オープンソースのLLMやコーディングエージェントが評価指標として用いている。
SWE-Bench Verifiedのスコアは信頼できますか?: 公開ベンチマークであるため、訓練データへの混入（データリーク）や、モデルが採点環境を認識して振る舞いを変える「評価認識」の問題が指摘されている。AnthropicはClaude Opus 4.8の発表時にこの問題を自ら開示しており、スコアの解釈には注意が必要とされている。
SWE-Bench Verifiedはどのような場面で参照されますか?: コーディングエージェントやソフトウェア開発支援AIの新モデル発表時に、前世代や競合モデルとの性能比較を示す指標として引用されることが多い。AI企業が自社モデルの実用的なコーディング能力を示す際の共通の比較軸となっている。

External Mentions

10 件

arXivSWE-Doctor: Guiding Software Engineering Agents with Runtime Diagnosis from Multi-Faceted Bug Reproduction Tests
▲ 0Yaoqi Guo2026年7月1日
arXivSelf-Evolving Agents with Anytime-Valid Certificates
▲ 0Biswa Sengupta2026年7月1日
arXivLoc2Repair: A Framework for Evaluating the Impact of File-Level Issue Localization in Repo-Level LLM Repair
▲ 0Mohammad Nour Al Awad2026年6月29日
arXivDockerless: Environment-Free Program Verifier for Coding Agents
▲ 0Wenhao Zeng2026年6月26日
arXivSWE-MeM: Learning Adaptive Memory Management for Long-Horizon Coding Agents
▲ 0Shuzheng Gao2026年6月26日
arXivUnlocking Model Potentials Through Adaptive Multi-Agent Scaffolding for Efficient Issue Resolution
▲ 0Yang Chen2026年6月24日
arXivSHERLOC: Structured Diagnostic Localization for Code Repair Agents
▲ 0Hovhannes Tamoyan2026年6月23日
arXivFrom Fragments to Paths: Task-Level Context Recovery for Large Industrial Codebases
▲ 0Jiawei He2026年6月22日
arXivDoes the Same Token Mean the Same State? MoE Routing as Signal for Reasoning Control
▲ 0Kang Chen2026年6月22日
arXivCode Isn't Memory: A Structural Codebase Index Inside a Coding Agent
▲ 0Ishaan Bhola2026年6月21日

SWE-Bench Verified

Overview

概要

技術的位置づけ

主要な動向

Mentioned Articles

Claude Opus 4.8が発表、コードの欠陥見逃しが4分の1に：「試験を知るAI」という新たな懸念

xAIが「Grok Build」でコーディングエージェント市場へ本格参入、300ドルの高価格帯が示す戦略的意図

「中国最強AI」の性能は偽装か。米政府の未公開テストが暴いたDeepSeek V4 Pro“8ヶ月の遅れ”の真実

GoogleがGemini 3.1 Proを発表：推論能力の倍増がもたらす「思考するAI」へのパラダイムシフトとエコシステムの変容

Anthropic「Claude Sonnet 4.6」発表：AIエージェントの経済学を根底から覆す「価格破壊」と「Opus級知能」の民主化

中国Moonshot AI、オープンソースモデル「Kimi K2.5」を発表：100体の「Agent Swarm」がGPT-5.2を猛追

Zhipu AI「GLM-4.7」シリーズ徹底解剖：30B級最強の「Flash」と進化する「思考するAI」が描く、ローカルLLMの新たな地平

Googleが「Gemini 3 Flash」をリリース：検索とAIエージェントの常識を覆す「爆速・高知能」モデルの全貌

OpenAI GPT-5.2 始動：Google Gemini 3への回答となる「自律型エージェント」の真価と、産業界にもたらすパラダイムシフト

Mistral AI「Devstral 2」発表：Claude Sonnet比7倍のコスト効率と「バイブコーディング」で挑む、オープンソース・エージェントの革命

Claude Opus 4.5登場：Anthropicが放つ「自律型AI」の真打ちと、激化するGPT-5.1・Gemini 3との覇権争い

Google Antigravity: 自律型エージェントによる「非同期開発」アーキテクチャの解剖とIDEの再定義

Google、Gemini 3発表。AI性能競争の王座奪還か

中国発AI「Kimi K2 Thinking」、性能でGPT-5を凌駕：オープンソースの新時代到来か

Anthropic、新AI「Claude Haiku 4.5」発表。5カ月前の最上位モデルに匹敵する性能と圧倒的低コストを実現

Anthropic、「世界最高のコーディングモデル」Claude Sonnet 4.5を発表：30時間の自律作業とSWE-bench 82%達成の衝撃

MetaのAI「CWM」はコードの未来を変えるか？「実行」を理解する世界モデルの衝撃

OpenAI、GPT-5 Codex発表：7時間思考し続ける自律型AIは開発者の未来をどう変えるか

Anthropic、1.9兆円調達で評価額27兆円へ

OpenAI、次世代モデル「GPT-5」をついに公開：“博士レベルの頭脳”と謳われるその実力がもたらす衝撃とは

よくある質問

External Mentions