Anthropicは2024年4月、AI業界に新たな革新をもたらす重要な発表を行った。同社のフラッグシップAIモデル「Claude 3.5 Sonnet」の大幅なアップグレードと、新モデル「Claude 3.5 Haiku」の導入に加え、最も注目を集めているのが「Computer Use」機能のパブリックベータ版の公開である。
画面を見て判断し操作する – AIによるコンピュータ制御の新境地
Anthropicが新たに発表した「Computer Use」機能は、同社が主張するように今回の発表で最も重要な革新だろう。これは、個々のタスクに特化したツールを開発するのではなく、AIに一般的なコンピュータースキルを教えるという、“汎用的な”AIの実現に向けた第一歩と言える。
Anthropicはこれを実現するために、Claude AIがコンピュータのインターフェースを認識し、対話できるようにするAPIを開発した。 開発者はこのAPIを統合することで、Claudeが「私のコンピューターとインターネットのデータを使ってこのフォームに記入してください」といった指示を実際のコンピューターコマンドに変換できるようになる。システムはマウスポインターを動かしたり、画面要素をクリックしたり、仮想キーボードを使って情報を入力したりできる。
OSWorldのベンチマークでは、スクリーンショットのみを使用するカテゴリーで14.9%のスコアを記録し、次点の7.8%を大きく引き離す結果となった。それでも人間の能力にははるかに及ばない。Anthropicは、Claudeの現在のコンピューター操作スキルが不完全であることを認識している。 スクロール、ドラッグ、ズームなど、人間には難しくない動作も、Claudeにはまだ難しい。 同社は、この機能を実装する際には、リスクの低いタスクから始めることを開発者に推奨している。
Claude 3.5シリーズも性能が飛躍的に向上 – コーディングとツール使用で業界最高水準を達成
Claude 3.5 Sonnetの性能向上は、特にソフトウェア開発分野で顕著な成果を見せている。SWE-bench Verifiedテストでのスコアは33.4%から49.0%へと大幅に向上し、OpenAIのo1-previewを含む既存の全モデルを凌駕する結果となった。この改善は、複雑な推論を必要とするコーディングタスクにおいて、AIの能力が新たな段階に達したことを示している。
ツール使用能力を評価するTAU-benchでも、小売分野で69.2%、航空分野で46.0%という高いスコアを記録。特に航空分野での10ポイントの向上は、複雑な業務プロセスへの適応能力の高さを示している。これらの改善は、既存モデルと同じ価格帯とレスポンス速度を維持しながら実現されている点も特筆に値する。
加えて、新たなClaude 3.5 Haikuモデルも発表された。Claudeシリーズで最も軽量で安価なHaikuモデルだが、従来のClaude 3 Haikuと同様のスピードとコストを維持しながら、多くのベンチマークで従来の最上位モデルClaude 3 Opusを上回るとしている。
新しいClaude 3.5 Haikuは、プログラミングタスクのスピードとコストに比して、印象的な能力を示している。 SWE-bench Verifiedテストでは40.6%を記録しており、Anthropic社によればGPT-4oを含む “公開されている最先端モデル “に基づく多くのエージェントの性能を上回っているとのことだ。 Anthropicは今月末にHaikuをリリースする予定としている。
実用化に向けた具体的な成果 – 主要企業での活用事例
Anthropicの初期のパートナーはすでにClaude 3.5 Sonnetの実証実験を行っている。GitLabでは、開発パイプラインの自動化タスクにおいて、処理速度を落とすことなく推論能力が最大10%向上したことが確認された。この改善により、複雑な多段階のソフトウェア開発プロセスを効率的に処理できるようになっている。
ReplitのプレジデントであるMichele Catasta氏は、「アプリケーション開発中のリアルタイム評価を可能にする強力な自律検証システムの実現への道が開かれた」と評価している。これにより、ソフトウェアのテストフェーズにおける大幅な時間短縮が期待できる。
Canvaでは、デザイン制作と編集プロセスの効率化にClaude 3.5 Sonnetを導入。同社のAIプロダクト部門責任者であるDanny Wu氏は、「チーム内で発見された効率化の可能性は、ユーザーに大きな影響をもたらす可能性がある」と期待を示している。
安全性とプライバシーの確保 – 包括的なセキュリティ対策
Anthropicは、Computer Use機能の安全な展開のため、複数層の防護措置を実装している。AIが独自にコンピュータにアクセスすることを防ぎ、開発者が明示的に許可したツールのみを使用可能とする仕組みを採用。さらに、政府Webサイトなどの機密性の高いサイトへのアクセスを制限する新しい分類器を開発し、潜在的なリスクの軽減を図っている。
セキュリティ面では、米国AI安全保障研究所(US AISI)および英国安全保障研究所(UK AISI)による厳密な事前展開テストを実施。これらの機関との協力により、モデルの安全性と信頼性の確保に努めている。また、スクリーンショットは30日間保持され、必要に応じて監査が可能な体制を整えている。
Xenospectrum’s Take
Anthropicの今回の発表は、AIと人間のインターフェースの在り方を根本から変える可能性を秘めている。特にComputer Use機能は、従来のRPAツールが持つ硬直性を超え、より柔軟で知的な自動化の実現に向けた重要な一歩となる。
現状では、スクロールやズームといった基本的な操作にも課題が残されているものの、これは技術の初期段階としては自然な状態といえる。より重要なのは、AIがユーザーインターフェースを理解し、目的に応じて適切な操作を選択できる能力を獲得したという事実である。
セキュリティ面での懸念は依然として存在するが、Anthropicの段階的なアプローチと包括的な安全対策は、責任ある技術開発の良いモデルとなっている。パブリックベータを通じて得られる実地でのフィードバックは、さらなる改善と安全性の向上に不可欠となるだろう。
2024年のAI開発競争が激化する中、このような実用的かつ革新的な機能の登場は、企業のデジタルトランスフォーメーションを加速させる触媒となる可能性が高い。今後、より多くの企業がこの技術を採用し、新たな活用方法を見出していくことで、ビジネスプロセスの自動化は新たな段階へと進化していくだろう。
Sources
コメント