SWE-bench
別名: SWE-bench, SWEベンチマーク
Overview
SWE-benchは、大規模言語モデル(LLM)が実際のソフトウェアリポジトリにおけるバグ修正や機能追加のタスクをどれだけ正確に、かつ自律的に実行できるかを評価するために設計されたベンチマークである。これは、既存のコードベースを理解し、問題点を特定し、適切な修正を施すという、ソフトウェアエンジニアリングの中核的な作業をLLMが遂行する能力を客観的に測定する。半導体・テック業界では、AIを活用したソフトウェア開発ツールの性能評価や、自動コード生成システムの精度向上に不可欠な指標として利用されている。特に、複雑なシステムオンチップ(SoC)のファームウェア開発や、AIモデルの最適化ソフトウェアのデバッグなど、高度なプログラミング能力が求められる分野でのLLMの適用可能性を探る上で重要な役割を果たす。
SWE-benchは、GitHub上の実際のオープンソースプロジェクトから抽出された、解決済みのIssueとそれに対応するプルリクエストのペアをデータセットとして構築されている。各タスクは、特定のバグ報告や機能要求に対して、LLMがコードを生成し、テストを実行してその修正が正しく機能するかを検証する一連のプロセスをシミュレートする。このベンチマークは、単にコードスニペットを生成するだけでなく、開発環境のセットアップ、テストの実行、デバッグといった、より実践的なエンジニアリング作業をLLMに要求する点で特徴的である。従来のコード生成ベンチマークが抱えていた、現実世界の問題との乖離という課題を克服し、より実践的な評価基準を提供することを目指して開発された。
SWE-benchの登場は、AIによるソフトウェア開発の自動化、特にAIコーディングアシスタントや自律型エージェントの研究開発を大きく加速させた。現在、GPT-4やClaude 3などの最先端LLMがSWE-benchで高いスコ
Mentioned Articles
9 件-
テクノロジー -
テクノロジーAnthropic、“強力すぎて公開できない”AIモデル「Mythos Preview」を発表:数十年放置されたバグや数千件のゼロデイ脆弱性を既に発見
AIが27年前のOSバグを発見し、16年前に埋もれていた脆弱性を掘り起こす。Anthropicが2026年4月7日に発表したClaude Mythos Previewは、そのサイバーセキュリティ能力が突出しすぎているがゆ […]
-
テクノロジーOpenAI、macOS版「Codex」デスクトップアプリをリリースしAnthropic Claude Codeに対抗
OpenAIは2026年2月2日(現地時間)、同社のAIコーディング支援ツール「Codex」のスタンドアロン版macOSデスクトップアプリを正式にリリースした。これまでコマンドラインインターフェース(CLI)やIDE(統 […]
-
テクノロジーAnthropic、「世界最高のコーディングモデル」Claude Sonnet 4.5を発表:30時間の自律作業とSWE-bench 82%達成の衝撃
AI企業Anthropicは9月30日、最新モデルClaude Sonnet 4.5を発表した。同社は「世界最高のコーディングモデル」と明言し、複雑なエージェント構築とコンピューター操作において最強のモデルであると位置づ […]
-
テクノロジーOpenAI、GPT-5 Codex発表:7時間思考し続ける自律型AIは開発者の未来をどう変えるか
OpenAIが、ソフトウェア開発を大きく変える可能性を秘めた新型AIモデル「GPT-5 Codex」を発表した。このモデルで特筆すべきはこれまでのどちらかと言えば漸進的な性能向上に留まらない、その持久力にある。GPT-5 […]
-
テクノロジーなぜChatGPTは嘘をつくのか?OpenAIが自ら明かす「ハルシネーション」の根本原因
大規模言語モデル(LLM)が生成する「ハルシネーション(幻覚)」。このもっともらしい嘘は、AIの信頼性を揺るがす最も重要で根深い課題だ。今回、OpenAIは新たな研究論文を発表し、なぜこの問題が最新モデルですら根絶できな […]
-
テクノロジーChatGPT新モデル「GPT-5」の性能と新たな制限にユーザーから不満噴出!「AIの相棒」失った怒りを受けGPT-4oの復活も発表
鳴り物入りで登場したOpenAIの次世代モデル「GPT-5」。しかし、その船出はユーザーからの厳しい声に満ちた逆風に晒されている。旧モデル「GPT-4o」に慣れ親しんだ利用者は、性能の低下や厳しい利用制限、そして何よりも […]
-
テクノロジーAI利用で開発速度が19%低下という衝撃の結果:経験豊富な開発者ほど陥る「体感速度の幻想」
AIがコードを書き、開発者を支援する――。この数年、誰もが信じてきた「生産性革命」のシナリオに、冷や水を浴びせる研究結果が発表された。AIの能力評価を専門とする非営利研究機関METRが実施した厳密な調査によると、経験豊富 […]
-
テクノロジー世界初のAIソフトウェア開発者「Devin」は独自のAIを訓練して作り出し、人間に頼らずソフトウェア開発を行える
AIが今後奪うであろう職種の筆頭に、まさかソフトウェアエンジニアが挙げられるとは数年前には想像もしなかっただろう。だがそれがついに現実になりそうだ。Cognition Labsは、世界初のAIソフトウェア開発者である「D […]
External Mentions
10 件- Hacker News SWE-bench Verified no longer measures frontier coding capabilities
- Hacker News Are LLM merge rates not getting better?
- Hacker News Many SWE-bench-Passing PRs would not be merged
- Hacker News MiniMax M2.5 released: 80.2% in SWE-bench Verified
- Hacker News SWE-Bench Pro
- Hacker News Top model scores may be skewed by Git history leaks in SWE-bench
- Hacker News Qodo CLI agent scores 71.2% on SWE-bench Verified
- Hacker News Some critical issues with the SWE-bench dataset
- Hacker News Launch HN: Codebuff (YC F24) – CLI tool that writes code for you
- Hacker News Show HN: Aide, an open-source AI native IDE