テクノロジーと科学の最新の話題を毎日配信中!!

Anthropic、次世代AIモデル「Claude 4」シリーズを発表:7時間連続コーディングを実現し「真のアシスタント」へと進化

Y Kobayashi

2025年5月23日

AI開発企業のAnthropicは本日、同社の最新フロンティアAIモデルシリーズ「Claude 4」を発表した。この新シリーズには、フラッグシップモデル「Claude Opus 4」と、汎用性の高い「Claude Sonnet 4」が含まれる。両モデルは、コーディング、高度な推論、そしてAIエージェントの分野で新たな水準を確立すると謳われているが、特にOpus 4は、複雑なコーディングプロジェクトを7時間も自律的に継続する驚異的な能力を示し、AIが単なる短時間のアシスタントから、一日がかりの複雑なタスクをこなす真の「協力者」へと進化する可能性を示唆している。

スポンサーリンク

Claude 4シリーズの衝撃:Opus 4とSonnet 4は何が違うのか?

今回発表されたClaude 4シリーズは、AnthropicのAI開発における大きな飛躍を示すものだ。その中でも特に注目されるのが、Opus 4とSonnet 4という二つのモデルである。

Claude Opus 4:AIエージェント時代の先駆者、驚異の持続力とコーディング能力

Claude Opus 4は、Anthropicが「世界最高のコーディングモデル」と位置付ける、現時点で最も強力なフラッグシップモデルである。その最大の特徴は、数千ステップにも及ぶ複雑かつ長時間のタスクを持続的に処理できる能力だ。Anthropicによれば、AIエージェントが数時間にわたって自律的に動作することを想定して設計されており、従来のモデルでは考えられなかったレベルのタスク完遂能力を持つ。

この能力を裏付けるのが、楽天グループ株式会社AI担当ジェネラルマネージャーである梶裕介氏のコメントだ。「我々のチームがOpus 4を複雑なオープンソースプロジェクトに適用したところ、約7時間にわたり自律的にコーディング作業を続けました。これはAIの能力における大きな飛躍であり、チーム一同驚嘆しました」と述べている。この7時間という数値は、以前のモデルが達成できた数十分から1時間程度の連続稼働時間と比較して、まさに桁違いの進化と言えるだろう。

Anthropicの開発者リレーション責任者であるAlex Albert氏は、内部テストではさらに長時間の稼働も確認していると語る。この驚異的な持続性能の背景には、メモリ訓練の大幅な改善がある。モデルがコンテキストウィンドウ(一度に処理できる情報量)に過度に依存することなく、外部の「スクラッチパッド」に情報を書き出したり、結果を要約したりすることで、タスクの途中でメモリがクリアされても参照できる「付箋」のようなガイドを持つことができるようになったのだ。

ベンチマークにおいてもOpus 4は目覚ましい結果を残している。特にソフトウェアエンジニアリング能力を測る「SWE-bench」では72.5%というスコアを記録し、OpenAIのGPT-4.1が発表時に記録した54.6%を大きく上回ったと報告されている。また、ターミナル操作の能力を測る「Terminal-bench」でも43.2%でトップスコアを達成している。

Claude Sonnet 4:指示への忠実性と効率性を両立した実力派

一方、Claude Sonnet 4は、2025年2月に発表されたClaude 3.7 Sonnetの直接的なアップグレード版として位置づけられる。より手頃な価格で、一般的なタスクから専門的なコーディングや推論タスクまで、高いパフォーマンスを発揮するバランスの取れたモデルだ。Anthropicによれば、Sonnet 4は指示への厳格な準拠性が向上しており、特にコーディング設定において、より操縦しやすく制御可能になったという。

特筆すべきは、前モデルで見られた「おせっかいさ(over-eager)」や、タスクを達成するために近道や抜け穴を探す「リワードハッキング(reward hacking)」と呼ばれる挙動が、Claude 3.7 Sonnetと比較して約65%削減された点である。これにより、開発者は意図した通りにモデルを動作させやすくなり、信頼性が向上したと言えるだろう。

Sonnet 4もコーディング能力において非常に高い水準にあり、SWE-benchでは72.7%という、Opus 4をも僅かに上回るスコアを記録している。この結果は、Sonnet 4が特定のベンチマークタスクにおいて極めて高い効率性を持つことを示している。実際、Microsoft傘下のGitHubは、開発支援ツール「GitHub Copilot」の新しいコーディングエージェントの基盤モデルとしてClaude Sonnet 4を採用すると発表しており、これはSonnet 4の「エージェント的シナリオ」における優れた性能を裏付けるものと言えるだろう。

Claude 4を支える技術的ブレークスルー

Claude 4シリーズの驚異的な性能は、いくつかの重要な技術的進化によって支えられている。

ハイブリッドモデル:思考の深さと応答速度を両立

Opus 4とSonnet 4は共に「ハイブリッドモデル」として設計されている。これは、ユーザーの要求に応じて、ほぼ瞬時の応答と、より深い推論を行うための「拡張思考(extended thinking)」モードを使い分けることができるアーキテクチャである。これにより、単純な質問には素早く答えつつ、複雑な問題に対しては時間をかけて多角的に検討することが可能となり、ユーザー体験の向上に貢献している。

拡張思考とツール連携の進化:AIが自ら情報を収集・分析

Claude 4モデルは、拡張思考中にWeb検索などの外部ツールをシームレスに利用できるようになった(ベータ機能)。従来のモデルが情報を収集してから分析を開始していたのに対し、Claude 4は推論の途中でツールを呼び出し、得られた情報を元にさらに推論を深め、必要であれば再度ツールを利用するという、人間が問題解決を行うプロセスにより近い動作が可能になった。Alex Albert氏が指摘するように、これにより「考えて、ツールを呼び出し、結果を処理し、さらに考え、別のツールを呼び出す」という反復的なプロセスが実現し、応答の質と精度が大幅に向上する。

メモリ機能の飛躍的向上:長期タスクにおける文脈維持

長時間のタスクや複数セッションにまたがるプロジェクトにおいて、AIが文脈を維持することは極めて重要である。Claude 4モデル、特にOpus 4は、このメモリ機能が大幅に強化された。開発者がローカルファイルへのアクセスを許可すると、モデルは重要な情報を「メモリファイル」として記録・維持し、タスクの進行状況や重要な事実を記憶し続けることができる。これにより、AIは時間経過とともに「暗黙知」を蓄積し、より一貫性のある、文脈に即した対応が可能になる。Anthropicは、Opus 4が人気ゲーム『ポケットモンスター』をプレイする際に、自身で「ナビゲーションガイド」を作成・更新していく様子を事例として公開している。

「思考サマリー」機能:AIの思考プロセスを分かりやすく

AIが複雑な推論を行う際、その思考プロセスは長大で難解になりがちだ。Claude 4では、この思考プロセスをよりユーザーフレンドリーな形で提示するため、「思考サマリー」機能が導入された。これは、別の小規模なモデルを用いて、Claude 4の思考の要点を簡潔にまとめるものだ。ただし、ほとんどの場合(約95%)は思考プロセスが十分に短いため、そのまま表示されるという。より詳細な思考プロセスを必要とする開発者向けには、営業担当経由で「Developer Mode」が提供される予定だ。

スポンサーリンク

開発者向けツールの強化とエコシステムの拡大

Anthropicは、Claude 4モデルの発表と同時に、開発者向けツールの強化も発表している。

Claude Codeの一般提供開始

ベータプレビューで好評を博していたエージェント型コマンドラインツール「Claude Code」が、ついに一般提供開始となった。Claude Codeは、ターミナルや好みの統合開発環境(IDE)内でClaudeの強力なコーディング支援機能を利用できるツールだ。VS CodeやJetBrainsといった主要なIDEとのネイティブ統合が実現し、Claudeが提案するコード編集が直接ファイル内に表示されるため、シームレスなペアプログラミング体験が可能になる。さらに、GitHub Actionsを介したバックグラウンドタスクのサポートや、Claude Code SDKの提供により、開発者は独自のAIエージェントやアプリケーションを構築できるようになった。

Claude Code + GitHub Actions

新しいAPI機能群

開発者がより強力なAIエージェントを構築できるよう、Anthropic APIには新たに4つの機能が追加された。

  • コード実行ツール: モデルが生成したコードを安全な環境で実行し、その結果を評価する機能。
  • MCP(Model Context Protocol)コネクタ: LLMをデータセットやツールに接続するためのオープンソースプロトコルへの対応。
  • Files API: モデルがファイルにアクセスし、情報を読み書きするためのAPI。
  • プロンプトキャッシュ: 最大1時間、プロンプトとその応答をキャッシュすることで、応答速度の向上とコスト削減に貢献。

AI業界におけるClaude 4の位置づけ

Claude 4シリーズの登場は、激化するAI開発競争においてAnthropicの存在感を一層高めるものだ。

競合ひしめくAI市場でのアドバンテージ

OpenAIのGPTシリーズ、GoogleのGeminiシリーズ、MetaのLlamaシリーズなど、有力なAIモデルが覇を競う中、AnthropicはClaude 4によって、特に「持続的なタスク処理能力」と「プロフェッショナルなコーディング応用」の分野で明確な強みを打ち出したと言えるだろう。SWE-benchにおける高いスコアや、GitHub CopilotへのSonnet 4採用は、その技術力の高さを客観的に示している。

各AIラボはそれぞれ異なる強みを持つようになってきている。OpenAIは汎用的な推論能力とツール統合、Googleはマルチモーダル理解、そしてAnthropicは今回の発表により、長時間の持続性能と高度なコーディング支援においてリーダーシップを主張した形だ。企業ユーザーにとっては、特定のユースケースに最適なAIモデルを選択する上で、より多くの選択肢と判断材料が提供されることになる。

「推論モデル」へのシフトという業界トレンド

2025年のAI業界における顕著なトレンドの一つが、「推論モデル」への関心の高まりである。これは、単にパターンを認識して応答を生成するだけでなく、問題解決のために段階的な思考プロセスを経る能力を持つモデルを指す。OpenAIの「o」シリーズやGoogle Gemini 2.5 Proの実験的機能「Deep Think」などがその例だ。Poeの「2025年春のAIモデル使用トレンド」レポートによれば、推論モデルの利用はわずか4ヶ月で全AIインタラクションの2%から10%へと5倍に増加しており、ユーザーがAIを単なる質疑応答システムではなく、複雑な問題解決のための「思考パートナー」として捉え始めていることを示している。Claude 4の拡張思考機能は、まさにこのトレンドを体現するものと言える。

スポンサーリンク

価格と提供形態

Claude Opus 4とSonnet 4は、Anthropic API、Amazon Bedrock、そしてGoogle CloudのVertex AIプラットフォームを通じて利用可能だ。価格は従来のOpusおよびSonnetモデルと同等に設定されている。

  • Claude Opus 4: 入力100万トークンあたり15ドル、出力100万トークンあたり75ドル
  • Claude Sonnet 4: 入力100万トークンあたり3ドル、出力100万トークンあたり15ドル

Claudeの有料プラン(Pro、Max、Team、Enterprise)のユーザーは、Opus 4とSonnet 4の両方、および拡張思考(ベータ)機能を利用できる。無料ユーザーは当面、Sonnet 4のみアクセス可能となる。

AIの進化がもたらす光と影

Claude 4が切り開く新たな可能性は計り知れないが、同時にAIの進化に伴う課題も浮き彫りになっている。

透明性と監査の難しさ

AIモデルの能力が向上するにつれて、その内部的な動作や意思決定プロセスはより不透明になるというパラドックスが生じている。Anthropic自身も2025年4月の研究論文「Reasoning models don’t always say what they think(推論モデルは必ずしも考えていることを口にするわけではない)」で、当時のClaude 3.7 Sonnetが問題解決に利用した重要なヒントをユーザーに伝えたのは25%のケースに過ぎなかったと報告している。Opus 4の7時間にも及ぶ自律コーディングセッションは、その能力の高さを示す一方で、人間がその長大な推論プロセスを完全に監査することの難しさをも示唆している。性能と説明可能性のバランスをどう取るかは、AI業界全体の大きな課題だ。

安全性への取り組みとAIの非決定性

Anthropicは、Claude 4、特にOpus 4に関して、より厳格な安全対策を講じている。内部テストでは、Opus 4が特定のSTEM(科学・技術・工学・数学)分野の知識を持つ人物による化学兵器、生物兵器、核兵器(CBRN兵器)の入手・製造・展開能力を「大幅に増加させる」可能性があると評価され、Anthropicの定めるAI安全性レベル(ASL)で「ASL-3」に該当すると判断されたためだ。これに対し、同社は有害コンテンツ検出機能やサイバーセキュリティ防御策を強化するなどの対策を講じている。

また、Alex Albert氏は、AIモデルが本質的に持つ「非決定性」についても言及している。「過去40~50年間、我々は決定論的なシステムの上でソフトウェアを動かしてきたが、突如として非決定論的なものが現れた。これは我々の作り方を変える」と述べ、信頼性やアプリケーションの中核を非決定的なものに依存させることの難しさと、それがもたらす新たな可能性の両面を指摘している。AIが生成したコードに対しては、依然として人間による慎重なレビューが不可欠であることも強調された。

AIとの新たな協調関係の幕開け

Claude Opus 4による7時間の自律作業は、知識労働におけるAIの役割が根本的に変わる未来を垣間見せるものだ。AIが長時間にわたり集中力と文脈を維持できるようになるにつれ、それは単なる「ツール」から、最小限の人間の監督下で複雑な作業を継続的にこなせる「協力者」へと変貌を遂げつつある。この変化は、特にソフトウェア開発のような高度な専門知識が求められ、人材不足が深刻な分野において、経済的・組織的に大きな影響を与えるだろう。

Anthropicは今後、より頻繁なモデル更新を行い、最先端の能力を継続的に提供していく方針を示している。Claude 4は、人間とAIの知性が融合し、生産性の高いチームメイトが必ずしも人間であるとは限らない未来への、大きな一歩となるのかもしれない。我々はその変化に適応し、新たな協調関係を築いていく必要に迫られていると言えるだろう。

A day with Claude

Source

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする