Term

SWE-bench

別名: SWE-bench, SWEベンチマーク

Overview

SWE-benchは、大規模言語モデル(LLM)が実際のソフトウェアリポジトリにおけるバグ修正や機能追加のタスクをどれだけ正確に、かつ自律的に実行できるかを評価するために設計されたベンチマークである。これは、既存のコードベースを理解し、問題点を特定し、適切な修正を施すという、ソフトウェアエンジニアリングの中核的な作業をLLMが遂行する能力を客観的に測定する。半導体・テック業界では、AIを活用したソフトウェア開発ツールの性能評価や、自動コード生成システムの精度向上に不可欠な指標として利用されている。特に、複雑なシステムオンチップ(SoC)のファームウェア開発や、AIモデルの最適化ソフトウェアのデバッグなど、高度なプログラミング能力が求められる分野でのLLMの適用可能性を探る上で重要な役割を果たす。

SWE-benchは、GitHub上の実際のオープンソースプロジェクトから抽出された、解決済みのIssueとそれに対応するプルリクエストのペアをデータセットとして構築されている。各タスクは、特定のバグ報告や機能要求に対して、LLMがコードを生成し、テストを実行してその修正が正しく機能するかを検証する一連のプロセスをシミュレートする。このベンチマークは、単にコードスニペットを生成するだけでなく、開発環境のセットアップ、テストの実行、デバッグといった、より実践的なエンジニアリング作業をLLMに要求する点で特徴的である。従来のコード生成ベンチマークが抱えていた、現実世界の問題との乖離という課題を克服し、より実践的な評価基準を提供することを目指して開発された。

SWE-benchの登場は、AIによるソフトウェア開発の自動化、特にAIコーディングアシスタントや自律型エージェントの研究開発を大きく加速させた。現在、GPT-4やClaude 3などの最先端LLMがSWE-benchで高いスコ

Mentioned Articles

9 件

External Mentions

10 件