SWE-Bench Verified
別名: SWE-bench Verified
Overview
GitHubの実際のイシューを解決できるかをテストするSWE-benchの精度を高めたバージョン。AIが実際のコードベースに対してバグ修正や機能実装を行えるかを評価する。
Mentioned Articles
20 件-
テクノロジー -
テクノロジーxAIが「Grok Build」でコーディングエージェント市場へ本格参入、300ドルの高価格帯が示す戦略的意図
xAIは初のターミナルネイティブなコーディングエージェント「Grok Build」のアーリーベータ版を公開した。本ツールは、ACPやAGENTS.mdといったオープン規格に準拠し、並列サブエージェントとGitワークツリーによる大規模開発に対応しており、月額300ドルの最上位プランでプロフェッショナル層を狙う。
-
テクノロジー「中国最強AI」の性能は偽装か。米政府の未公開テストが暴いたDeepSeek V4 Pro“8ヶ月の遅れ”の真実
AIの真の推論能力を測るため、NIST傘下のCAISIが非公開テストを実施した結果、中国のDeepSeek V4 Proは公開ベンチマークでの自己申告とは異なり、米国の最先端モデルに約8ヶ月の遅れをとっていることが判明した。これは、公開テストへの過剰適合を排除し、米中間のAI技術格差を冷徹に浮き彫りにした評価である。
-
テクノロジーGoogleがGemini 3.1 Proを発表:推論能力の倍増がもたらす「思考するAI」へのパラダイムシフトとエコシステムの変容
Googleは2026年2月19日、同社のフラッグシップAIモデルの最新版「Gemini 3.1 Pro」をプレビュー公開した。2025年11月のGemini 3リリースからわずか数ヶ月という異例のスピードで開発・投入さ […]
-
テクノロジーAnthropic「Claude Sonnet 4.6」発表:AIエージェントの経済学を根底から覆す「価格破壊」と「Opus級知能」の民主化
2026年2月17日、Anthropicが新たなAIモデル「Claude Sonnet 4.6」を発表したが、これはAI業界全体に衝撃を与える「価格破壊」と「知能の民主化」を同時に達成するものと言えそうだ。 従来のAIモ […]
-
テクノロジー中国Moonshot AI、オープンソースモデル「Kimi K2.5」を発表:100体の「Agent Swarm」がGPT-5.2を猛追
2026年1月、AI業界にまたしても中国からの巨大な波が押し寄せた。AlibabaやHongShan(旧Sequoia China)から巨額の支援を受けるMoonshot AI(月之暗面)が、最新のオープンソースモデル「 […]
-
テクノロジーZhipu AI「GLM-4.7」シリーズ徹底解剖:30B級最強の「Flash」と進化する「思考するAI」が描く、ローカルLLMの新たな地平
2026年1月20日、中国の有力AI企業であるZhipu AI(Z.ai)は、オープンソースとオープンサイエンスの精神を掲げ、既に発表していた新たな言語モデルシリーズ「GLM-4.7」に続き、その軽量版である「GLM-4 […]
-
テクノロジーGoogleが「Gemini 3 Flash」をリリース:検索とAIエージェントの常識を覆す「爆速・高知能」モデルの全貌
2025年12月18日、Googleは同社の最新AIモデル、「Gemini 3 Flash」を正式にリリースした。 だが、以前から存在した軽量版の“Flash”とは質的に異なる物で、単なる「軽量版モデルの更新」ではない。 […]
-
テクノロジーOpenAI GPT-5.2 始動:Google Gemini 3への回答となる「自律型エージェント」の真価と、産業界にもたらすパラダイムシフト
2025年12月12日、OpenAIは、Googleの猛追に対抗すべく、新たなフラッグシップモデル「GPT-5.2」シリーズ(Instant, Thinking, Pro)を正式にリリースした。 前モデルであるGPT-5 […]
-
テクノロジーMistral AI「Devstral 2」発表:Claude Sonnet比7倍のコスト効率と「バイブコーディング」で挑む、オープンソース・エージェントの革命
2025年12月10日、フランスのAIスタートアップであり、欧州のユニコーン企業筆頭であるMistral AIが、新たなコーディング特化型モデルファミリー「Devstral 2」および「Devstral Small 2」 […]
-
テクノロジーClaude Opus 4.5登場:Anthropicが放つ「自律型AI」の真打ちと、激化するGPT-5.1・Gemini 3との覇権争い
AI業界における「静かなる巨人」Anthropicが、同社のフラッグシップモデルの最新版となる「Claude Opus 4.5」を正式にリリースした。これにより、9月の「Sonnet 4.5」、10月の「Haiku 4. […]
-
テクノロジーGoogle Antigravity: 自律型エージェントによる「非同期開発」アーキテクチャの解剖とIDEの再定義
Googleは本日、最先端のフロンティアモデルである「Gemini 3 Pro」と共に、全く新しいIDE(統合開発環境)である発表した「Antigravity」を発表した。従来のIDEが「人間が書き、AIが補佐する」同期 […]
-
テクノロジーGoogle、Gemini 3発表。AI性能競争の王座奪還か
Googleは2025年11月19日(現地時間)、同社の最新かつ最も高性能なAIモデル群「Gemini 3」を正式に発表した。主要な性能評価指標(ベンチマーク)で競合を軒並み上回り、独立系分析機関からは「市場で最も知的な […]
-
テクノロジー中国発AI「Kimi K2 Thinking」、性能でGPT-5を凌駕:オープンソースの新時代到来か
中国のAIスタートアップMoonshot AIが発表したオープンソースモデル「Kimi K2 Thinking」が、主要な性能ベンチマークでOpenAIのGPT-5やAnthropicのClaude Sonnet 4.5 […]
-
テクノロジーAnthropic、新AI「Claude Haiku 4.5」発表。5カ月前の最上位モデルに匹敵する性能と圧倒的低コストを実現
AIスタートアップのAnthropicは10月15日(現地時間)、同社の言語モデルファミリーに最新の小型モデル「Claude Haiku 4.5」を追加したと発表した。わずか5カ月前に最先端とされた中位モデル「Claud […]
-
テクノロジーAnthropic、「世界最高のコーディングモデル」Claude Sonnet 4.5を発表:30時間の自律作業とSWE-bench 82%達成の衝撃
AI企業Anthropicは9月30日、最新モデルClaude Sonnet 4.5を発表した。同社は「世界最高のコーディングモデル」と明言し、複雑なエージェント構築とコンピューター操作において最強のモデルであると位置づ […]
-
テクノロジーMetaのAI「CWM」はコードの未来を変えるか?「実行」を理解する世界モデルの衝撃
Metaが、AIによるコード生成の常識を大きく変える可能性を持った新しい研究モデル「Code World Model(CWM)」を発表した。これは単に既存のコードを学習し、次に来るテキストを予測する従来のモデルとは一線を […]
-
テクノロジーOpenAI、GPT-5 Codex発表:7時間思考し続ける自律型AIは開発者の未来をどう変えるか
OpenAIが、ソフトウェア開発を大きく変える可能性を秘めた新型AIモデル「GPT-5 Codex」を発表した。このモデルで特筆すべきはこれまでのどちらかと言えば漸進的な性能向上に留まらない、その持久力にある。GPT-5 […]
-
テクノロジーAnthropic、1.9兆円調達で評価額27兆円へ
AI開発企業Anthropicが、新たに130億ドル(約1.95兆円)という驚異的な規模の資金調達を完了した。これにより、同社の評価額は1,830億ドル(約27.45兆円)に達したことも併せて明らかになった。これは、AI […]
-
テクノロジーOpenAI、次世代モデル「GPT-5」をついに公開:“博士レベルの頭脳”と謳われるその実力がもたらす衝撃とは
OpenAIが、待望の次世代AIモデル「GPT-5」を正式に発表した。単なる性能向上に留まらず、AIとの関わり方を根底から変えうる「思考能力」を搭載し、無料ユーザーを含む全ChatGPTユーザーに提供される。同社はこの最 […]
External Mentions
8 件- arXiv Reducing Token Usage of State-in-Context Agents using Minification
- arXiv CoMem: Context Management with A Decoupled Long-Context Model
- arXiv Code-QA-Bench: Separating Code Reasoning from Documentation Memorization in Repository-Level QA
- arXiv Long Live the Librarian! A Persistent Search Sub-Agent for Energy-Efficient Multi-Agent Software Engineering Systems
- arXiv Laguna M.1/XS.2 Technical Report
- Hacker News SWE-bench Verified no longer measures frontier coding capabilities
- Hacker News MiniMax M2.5 released: 80.2% in SWE-bench Verified
- Hacker News Qodo CLI agent scores 71.2% on SWE-bench Verified