AI企業Anthropicが、AIモデルの性能と影響を評価するための新しいタイプのベンチマークテスト開発に向けた資金提供プログラムを立ち上げた。このイニシアチブは、AIの能力と安全性を包括的に評価するための業界標準の確立を目指しており、現在のAI評価手法の限界を克服し、より高度で安全性を重視したベンチマークの開発を促進することが狙いのようだ。
今後登場する高度なAIモデルを評価する手法の開発が急務
Anthropicは2024年7月2日、第三者機関によるAI評価開発を支援する新たなイニシアチブを発表した。このプログラムは、高度なAIモデルの能力を効果的に測定できる評価手法の開発に資金を提供することを目的としている。
Anthropicのブログ投稿によると、「これらの評価への投資は、AI安全性の分野全体を向上させ、エコシステム全体に恩恵をもたらす価値あるツールを提供することを意図しています」とされている。同社は、高品質で安全性に関連する評価の開発が依然として課題であり、需要が供給を上回っていると指摘している。
重点分野と評価基準
このプログラムでは、以下の3つの重点分野における評価開発を求めている:
- AI安全性レベル(ASL)評価
- 高度な能力と安全性の指標
- 評価開発のためのインフラ、ツール、手法
特に注目すべき点として、以下の分野における評価開発が挙げられている:
- サイバーセキュリティ:高度な脅威アクターレベルのサイバー操作能力を評価する。
- CBRN(化学・生物・放射線・核)リスク:AIモデルがCBRN脅威の創造や設計に関与する可能性を評価する。
- モデルの自律性:AI研究開発、高度な自律的行動、自己複製と適応能力などを評価する。
- 国家安全保障リスク:AIシステムが国家安全保障、防衛、諜報活動に与える潜在的影響を評価する。
- 社会的操作:ディスインフォメーションや操作などの説得関連の脅威を増幅する可能性を評価する。
- ミスアラインメントリスク:AIモデルが危険な目標や動機を学習し、それを保持する可能性を評価する。
また、高度な科学、有害性と拒否、多言語評価の改善、社会的影響などの分野でも、新たな評価手法の開発を求めている。
良質な評価の原則
Anthropicは、良質な評価の原則として以下の点を挙げている:
- 十分な難易度:ASL-3またはASL-4レベルの能力や人間の専門家レベルの行動を測定できること。
- 学習データに含まれていないこと:モデルの汎化能力を測定するため。
- 効率的、スケーラブル、すぐに使用可能であること。
- 可能な限り大量のタスクや質問を含むこと。
- 適切な領域の専門知識を活用すること。
- 多様な形式を考慮すること(多肢選択以外のタスクベース評価など)。
- 人間の専門家のパフォーマンスと比較できるベースラインを設定すること。
- 適切な文書化と再現性を確保すること。
- 小規模から始め、反復し、スケールアップすること。
- 現実的で安全性に関連する脅威モデリングを行うこと。
応募方法と選考プロセス
このプログラムへの応募は、AnthropicのWebサイトで受け付けており、提案は随時審査される。選ばれたプロジェクトには、Anthropicの専門家チームとの直接のやり取りや、プロジェクトのニーズに合わせた資金提供オプションが用意されている。
Anthropicは、評価の洗練には通常複数の反復が必要であるとの経験から、フロンティアレッドチーム、ファインチューニング、信頼性と安全性などの関連チームの専門家との直接的なやり取りの機会を提供している。これらのチームは、評価の最大限の影響力を確保するためのガイダンスを提供するとのことだ。
業界への影響
Anthropicは、この取り組みが「AI評価の包括的な実施が業界標準となる未来への触媒として機能することを望んでいる」と述べている。しかし、一部の専門家からは、AI企業主導のベンチマーク開発に対する懸念の声も上がっている。
TechCrunchによると、Anthropicの商業的野心を考慮すると、このプログラムを完全に信頼することは難しい可能性があるとの指摘がある。また、Anthropicが資金提供する評価を自社のAI安全性分類と整合させたいと考えていることから、応募者が「安全」または「リスクがある」AIの定義について、同意できない可能性もあると指摘されている。
さらに、AI研究コミュニティの一部は、Anthropicが言及する「破滅的」および「欺瞞的」AIリスク(核兵器リスクなど)に懸念を示している。多くの専門家は、現在知られているAIが近い将来、世界を終わらせたり人間を出し抜いたりする能力を獲得する証拠はほとんどないと主張している。
一方で、Sierra Technologiesが先月リリースした「tau-bench」のように、他のAIスタートアップも新しいベンチマークテストの採用を推進しており、業界全体でAI評価手法の改善に向けた動きが加速している。
Sources
コメント