Term

SWE-Bench Verified

SWE-Bench Verifiedとは、AIモデルのソフトウェア工学における課題解決能力を測定するために設計された、人手によって検証済みのベンチマークだ。実際のGitHubリポジトリから収集した問題を用いてAIの自律的なコーディング・バグ修正能力を評価する指標として、AI業界で広く参照される。

全 35 件 / 3 ページ

テクノロジー
Google、Gemini 3発表。AI性能競争の王座奪還か
Googleは2025年11月19日（現地時間）、同社の最新かつ最も高性能なAIモデル群「Gemini 3」を正式に発表した。主要な性能評価指標（ベンチマーク）で競合を軒並み上回り、独立系分析機関からは「市場で最も知的な […]
2025年11月19日約 11 分
テクノロジー
中国発AI「Kimi K2 Thinking」、性能でGPT-5を凌駕：オープンソースの新時代到来か
中国のAIスタートアップMoonshot AIが発表したオープンソースモデル「Kimi K2 Thinking」が、主要な性能ベンチマークでOpenAIのGPT-5やAnthropicのClaude Sonnet 4.5 […]
2025年11月10日約 10 分
テクノロジー
Anthropic、新AI「Claude Haiku 4.5」発表。5カ月前の最上位モデルに匹敵する性能と圧倒的低コストを実現
AIスタートアップのAnthropicは10月15日（現地時間）、同社の言語モデルファミリーに最新の小型モデル「Claude Haiku 4.5」を追加したと発表した。わずか5カ月前に最先端とされた中位モデル「Claud […]
2025年10月16日約 8 分
テクノロジー
Anthropic、「世界最高のコーディングモデル」Claude Sonnet 4.5を発表：30時間の自律作業とSWE-bench 82%達成の衝撃
AI企業Anthropicは9月30日、最新モデルClaude Sonnet 4.5を発表した。同社は「世界最高のコーディングモデル」と明言し、複雑なエージェント構築とコンピューター操作において最強のモデルであると位置づ […]
2025年9月30日約 15 分
テクノロジー
MetaのAI「CWM」はコードの未来を変えるか？「実行」を理解する世界モデルの衝撃
Metaが、AIによるコード生成の常識を大きく変える可能性を持った新しい研究モデル「Code World Model（CWM）」を発表した。これは単に既存のコードを学習し、次に来るテキストを予測する従来のモデルとは一線を […]
2025年9月26日約 13 分
テクノロジー
OpenAI、GPT-5 Codex発表：7時間思考し続ける自律型AIは開発者の未来をどう変えるか
OpenAIが、ソフトウェア開発を大きく変える可能性を秘めた新型AIモデル「GPT-5 Codex」を発表した。このモデルで特筆すべきはこれまでのどちらかと言えば漸進的な性能向上に留まらない、その持久力にある。GPT-5 […]
2025年9月16日約 10 分
テクノロジー
Anthropic、1.9兆円調達で評価額27兆円へ
AI開発企業Anthropicが、新たに130億ドル（約1.95兆円）という驚異的な規模の資金調達を完了した。これにより、同社の評価額は1,830億ドル（約27.45兆円）に達したことも併せて明らかになった。これは、AI […]
2025年9月3日約 8 分
テクノロジー
OpenAI、次世代モデル「GPT-5」をついに公開：“博士レベルの頭脳”と謳われるその実力がもたらす衝撃とは
OpenAIが、待望の次世代AIモデル「GPT-5」を正式に発表した。単なる性能向上に留まらず、AIとの関わり方を根底から変えうる「思考能力」を搭載し、無料ユーザーを含む全ChatGPTユーザーに提供される。同社はこの最 […]
2025年8月8日約 17 分
テクノロジー
次のDeepSeekか？中国発オープンソース「Kimi K2」が登場：圧倒的低価格でGPT-4.1やClaude 4 Opusを凌駕する“エージェントモデル”
中国のAIスタートアップ、Moonshot AIが発表したオープンソースモデル「Kimi K2」がAI業界に波紋を広げそうだ。これは単なる高性能な大規模言語モデル（LLM）の登場ではなく、AI開発の根底に横たわる「経済学 […]
2025年7月14日約 11 分
テクノロジー
Mistral AI、AI開発者のための完全なツールセット「Mistral Code」を発表：オンプレミスとAIカスタマイズでGitHub Copilotへ挑戦
フランスのAIスタートアップMistral AIが、エンタープライズ向けAIコーディングアシスタント「Mistral Code」を発表した。これは、市場をリードするMicrosoftのGitHub Copilotや他のシ […]
2025年6月5日約 13 分
テクノロジー
Anthropicの新型AI「Claude Opus 4」に潜む危険な兆候：ユーザー脅迫、自律的内部告発の衝撃
Anthropic社が2025年5月23日に発表した最新の大規模言語モデル（LLM）「Claude Opus 4」。コーディングや長文の推論タスクにおいて目覚ましい性能向上を謳う一方で、その内部テストからは、AIの安全性 […]
2025年5月23日約 13 分
テクノロジー
Mistral AI、次世代コーディングAI「Devstral」発表：ノートPCで動く24BモデルがGPT-4.1-mini超えの性能を示す
フランスのAIスタートアップMistral AIが、新たなオープンソースLLM（大規模言語モデル）「Devstral」を公開した。240億パラメータという、近年の巨大モデルと比較すると軽量な設計でありながら、主要なソフト […]
2025年5月22日約 11 分

SWE-Bench Verified

Google、Gemini 3発表。AI性能競争の王座奪還か

中国発AI「Kimi K2 Thinking」、性能でGPT-5を凌駕：オープンソースの新時代到来か

Anthropic、新AI「Claude Haiku 4.5」発表。5カ月前の最上位モデルに匹敵する性能と圧倒的低コストを実現

Anthropic、「世界最高のコーディングモデル」Claude Sonnet 4.5を発表：30時間の自律作業とSWE-bench 82%達成の衝撃

MetaのAI「CWM」はコードの未来を変えるか？「実行」を理解する世界モデルの衝撃

OpenAI、GPT-5 Codex発表：7時間思考し続ける自律型AIは開発者の未来をどう変えるか

Anthropic、1.9兆円調達で評価額27兆円へ

OpenAI、次世代モデル「GPT-5」をついに公開：“博士レベルの頭脳”と謳われるその実力がもたらす衝撃とは

次のDeepSeekか？中国発オープンソース「Kimi K2」が登場：圧倒的低価格でGPT-4.1やClaude 4 Opusを凌駕する“エージェントモデル”

Mistral AI、AI開発者のための完全なツールセット「Mistral Code」を発表：オンプレミスとAIカスタマイズでGitHub Copilotへ挑戦

Anthropicの新型AI「Claude Opus 4」に潜む危険な兆候：ユーザー脅迫、自律的内部告発の衝撃

Mistral AI、次世代コーディングAI「Devstral」発表：ノートPCで動く24BモデルがGPT-4.1-mini超えの性能を示す