Term

SWE-bench

別名: SWE-bench, SWEベンチマーク

Overview

最終更新: 2026年7月9日

SWE-benchとは、大規模言語モデル（LLM）が実際のソフトウェア開発現場で発生するバグ修正や機能追加のタスクをどれだけ正確に解決できるかを評価するためのベンチマークである。実在するオープンソースリポジトリのIssueとそれに対応する修正コミットを基に問題が構成されており、モデルが生成したコード変更が実際のテストケースを通過するかどうかで正誤が判定される。単なるコード生成の巧拙ではなく、既存のコードベースを理解し文脈に適した修正を行う実務的な能力を測る点が特徴である。

概要

SWE-benchは、LLMのコード理解・生成能力を実務的な文脈で評価する目的で設計されたベンチマークであり、開発効率向上やソフトウェア品質保証の分野で活用されている。単純なアルゴリズム問題やコード補完タスクとは異なり、大規模かつ複雑な既存コードベースに対する変更を扱うため、モデルの実用的なエージェント能力を測る指標として業界内で参照される機会が増えている。

技術的位置づけ

SWE-benchのスコアは、AIコーディング支援ツールの性能訴求において頻繁に引用される数値の一つとなっている。特に自律的にコードを修正し続けるエージェント型モデルの評価においては、単発の応答精度だけでなく、長時間にわたるタスク遂行能力と組み合わせて語られることが多い。こうした背景から、SWE-benchは各社のモデル発表時における比較指標として定着しつつある。

主要な動向

2026年6月3日にはAnthropicが最新モデルClaude Sonnet 4.5を発表し、SWE-benchで82%の成績を達成したと公表した。同社はこのモデルを「世界最高のコーディングモデル」と位置づけ、30時間にわたる自律作業が可能である点と合わせて訴求しており、SWE-benchのスコアが自律性の高いコーディングエージェントの実力を示す指標として引用された事例といえる。

一方で2026年4月12日には、OpenAIがGPT-5 Codexを発表し、7時間にわたり思考を継続できる持久力を特徴として打ち出した。従来のベンチマークによる漸進的な性能向上の訴求とは異なり、長時間タスク遂行という新たな軸が加わったことは、SWE-benchのような静的な問題解決率評価だけでは捉えにくい能力領域が注目されつつあることを示している。

さらに2026年6月11日には、55種の産業ツールを操作させる実務ベンチマーク「ALE」が登場し、GPT-5.5が首位を獲得する一方で最新モデルでも成功率が低迷する結果が示された。これは、SWE-bench的な単一リポジトリでのコード修正評価から、より複雑な実務ツール操作を含む評価へと、ベンチマークの設計思想が拡張されつつある流れを反映している。SWE-benchはこうした新世代ベンチマークの登場後も、コーディング領域における基準的な指標としての位置づけを保っている。

Mentioned Articles

11 件

よくある質問

SWE-benchとは何ですか?: SWE-benchとは、大規模言語モデルが実在するGitHubリポジトリのバグ修正や機能追加タスクをどれだけ正確に解決できるかを評価するベンチマークである。生成コードが実際のテストを通過するかで正誤を判定する。
SWE-benchは何のために使われますか?: AIコーディング支援モデルの実務的な能力を測定するために用いられる。単純なコード生成ではなく、既存コードベースの理解と修正能力を評価する点が特徴である。
SWE-benchのスコアが高いとどのような意味がありますか?: 実在のソフトウェア開発タスクにおいてモデルが正しい修正コードを生成できる割合が高いことを意味する。2026年6月にはClaude Sonnet 4.5が82%を達成したと発表されている。
SWE-bench以外にどのようなベンチマークがありますか?: 2026年6月には55種の産業ツール操作を評価する「ALE」というベンチマークが登場し、より複雑な実務タスクでのAI能力測定が進められている。
SWE-benchには限界がありますか?: 静的なコード修正タスクの正誤判定に主眼を置くため、長時間の自律作業や複数ツールを操作する実務能力までは十分に捉えられない場合がある。

External Mentions

10 件

Hacker NewsSenior SWE-Bench: open-source benchmark that assesses agents as senior engineers
▲ 186matt_d2026年7月2日
arXivSWE-Doctor: Guiding Software Engineering Agents with Runtime Diagnosis from Multi-Faceted Bug Reproduction Tests
▲ 0Yaoqi Guo2026年7月1日
arXivSelf-Evolving Agents with Anytime-Valid Certificates
▲ 0Biswa Sengupta2026年7月1日
arXivLoc2Repair: A Framework for Evaluating the Impact of File-Level Issue Localization in Repo-Level LLM Repair
▲ 0Mohammad Nour Al Awad2026年6月29日
arXivAgent-Computer Observation Interfaces Enable Dynamic Computer Use
▲ 0Bojie Li2026年6月28日
arXivDockerless: Environment-Free Program Verifier for Coding Agents
▲ 0Wenhao Zeng2026年6月26日
arXivLoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling
▲ 0Jian Yang2026年6月16日
arXivGeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning
▲ 0Haoyu Wang2026年6月16日
arXivDissecting model behavior through agent trajectories
▲ 0Gaurav Gupta2026年6月16日
arXivAgent trajectories as programs: fingerprinting and programming coding-agent behavior
▲ 0Hamidah Oderinwale2026年6月15日

SWE-bench

Overview

概要

技術的位置づけ

主要な動向

Mentioned Articles

トークン単価1.7倍安いSonnet 5が、タスク単価でOpus 4.8超えになった理由

最新AI「Claude Fable 5」が敗北。55の産業ツールを操る究極の実務ベンチマーク「ALE」でGPT-5.5が首位を獲得した理由

Cursorが独自AIモデル「Composer 2.5」を公開：極めて低いトークン単価でフロンティアモデルに匹敵する性能を実現と発表

Anthropic、“強力すぎて公開できない”AIモデル「Mythos Preview」を発表：数十年放置されたバグや数千件のゼロデイ脆弱性を既に発見

OpenAI、macOS版「Codex」デスクトップアプリをリリースしAnthropic Claude Codeに対抗

Anthropic、「世界最高のコーディングモデル」Claude Sonnet 4.5を発表：30時間の自律作業とSWE-bench 82%達成の衝撃

OpenAI、GPT-5 Codex発表：7時間思考し続ける自律型AIは開発者の未来をどう変えるか

なぜChatGPTは嘘をつくのか？OpenAIが自ら明かす「ハルシネーション」の根本原因

ChatGPT新モデル「GPT-5」の性能と新たな制限にユーザーから不満噴出！「AIの相棒」失った怒りを受けGPT-4oの復活も発表

AI利用で開発速度が19%低下という衝撃の結果：経験豊富な開発者ほど陥る「体感速度の幻想」

世界初のAIソフトウェア開発者「Devin」は独自のAIを訓練して作り出し、人間に頼らずソフトウェア開発を行える

よくある質問

External Mentions