Anthropic大規模調査が暴くAIエージェントの現在地:自律性の拡大とソフトウェア開発への一極集中
生成AIの進化は、単純な対話型インターフェースから「自律型エージェント」への移行という新たな段階を迎えている。これまで理論やベンチマークの数値で語られることの多かったエージェントの自律性について、Anthropicが自社 […]
METR (formerly known as ARC Evals) is a non-profit organization dedicated to assessing whether frontier AI models possess 'autonomous capabilities' that could pose a threat to society. They develop benchmarks to measure how well AI can perform complex, multi-step tasks in the real world.
生成AIの進化は、単純な対話型インターフェースから「自律型エージェント」への移行という新たな段階を迎えている。これまで理論やベンチマークの数値で語られることの多かったエージェントの自律性について、Anthropicが自社 […]
2020年2月の世界を覚えているだろうか。中国の武漢で奇妙なウイルスが流行しているというニュースが流れ始めていたが、多くの人々はまだレストランで食事を楽しみ、出張の計画を立て、日常を疑っていなかった。「トイレットペーパー […]
2026年、企業のAI投資は「夢」から「冷徹な現実」へとフェーズを移行させた。 Deloitteが発表した最新レポート『State of AI in the Enterprise 2026』は、世界のビジネスリーダーたち […]
AI開発は既に決定的な変化を迎えているようだ。OpenAIの従業員がArs Technicaに明かしたところによれば、同社のAIコーディングツール「Codex」は、現在「その大部分がCodex自身によって構築されている」 […]
AIがコードを書き、開発者を支援する――。この数年、誰もが信じてきた「生産性革命」のシナリオに、冷や水を浴びせる研究結果が発表された。AIの能力評価を専門とする非営利研究機関METRが実施した厳密な調査によると、経験豊富 […]