元Google DeepMindの研究者が創設した人工知能スタートアップReflection AIが、自律型コーディングシステムの開発を通じてスーパーインテリジェンスの実現を目指し、総額1億3000万ドル(約195億円)の資金調達を完了して2025年3月7日にステルスモードから脱却した。
大型資金調達と評価額
Reflection AIの資金調達は2段階で行われた。最初のシード資金調達ラウンドでは、Sequoia CapitalとCRVがリードして2500万ドル(約37.5億円)を調達。続くシリーズAラウンドでは、Lightspeed Venture PartnersとCRVの共同リードにより1億500万ドル(約157.5億円)を調達した。Bloombergのレポートによれば、この資金調達により同社の評価額は5億5500万ドル(約832億円)に達している。
投資家には、NVIDIAのVC部門、LinkedIn共同創業者のReid Hoffman氏、Scale AIのCEO Alexandr Wang氏、SV Angelなどの著名な人物や組織が名を連ねる。
DeepMindの遺伝子を受け継ぐ創業者たち
Reflection AIは、Google DeepMindの元研究科学者であるMisha Laskin氏とIoannis Antonoglou氏によって創設された。特にAntonoglou氏は、2016年に世界的な囲碁チャンピオンLee Sedol氏を破ったAlphaGoの開発における中心的な人物である。彼は後に、人間の指導なしに自己対戦だけで学習するAlphaZero、さらにはゲームのルールすら教えなくてもGo、チェス、将棋、Atariなどを習得したMuZeroの開発もリードした。
もう一人の共同創業者Laskin氏は、DeepMindでGeminiの報酬モデル開発をリードしていた。両者は強化学習(コンピューターが試行錯誤を通じて学習する手法)と大規模言語モデル(LLM、ChatGPTのような自然言語処理AI)という、現代AIの二大要素に関する深い専門知識を持ち寄り、Reflection AIを立ち上げた。
スーパーインテリジェンスへの独自アプローチ
Reflection AIのビジョンは、すべての知識労働を行う「スーパーインテリジェントエージェント」の構築である。同社は特に二つの信念に基づいている。一つは「自律型コーディングがスーパーインテリジェンスへの重要なステップである」こと、もう一つは「ベンチマークではなく実世界での評価が最も重要である」ことだ。
同社はスーパーインテリジェンス(人間の知能を超えるAI)を「コンピューターを使用するほとんどの作業を実行できるAIシステム」と定義している。その第一歩として、自律型プログラミングツールの開発に取り組んでいる。同社は、このようなツールを作るために必要な技術的要素が、より広範なスーパーインテリジェンス構築にも応用できると考えている。
「完全な自律型コーディングシステムを構築するために必要なブレークスルー—高度な推論と反復的な自己改善など—は、より広範なコンピューター作業のカテゴリに自然に拡張されます」とReflection AIのスタッフはブログに記している。
自律型コーディングエージェントの実用化
当初、Reflection AIは比較的狭いプログラミングタスクを自動化するAIエージェントの開発に焦点を当てる。これらのエージェントは、開発者のコードの脆弱性をスキャンしたり、アプリケーションのメモリ使用を最適化したり、信頼性の問題をテストするなどの作業を行う。
Sequoiaのブログ投稿によれば、Reflection AIの自律型コーディングエージェントは以下のようなタスクを処理する能力を持つ:
- 依存関係を壊すことなくレガシーコードを安全にリファクタリング
- テストケースの自動生成と実行
- プルリクエスト全体のメモリ使用量の最適化
- 問題が発生する前にセキュリティ脆弱性を発見して修正
さらに、コードの動作を説明するドキュメントの生成や、顧客アプリケーションが実行されるインフラストラクチャの管理なども行う予定だ。
「モデルインテリジェンスが向上するにつれて、Reflection AIのエージェントはより多くの責任を担うようになります」とSequoia Capitalの投資家Stephanie ZhanとCharlie Curninは述べている。「バックグラウンドで絶え間なく働き、チームを遅らせるワークロードを処理する自律型コーディングエージェントを想像してください。」
技術的アプローチと展望
Reflection AIのWebサイトの求人情報によれば、同社はLLMと強化学習を組み合わせたアプローチを採用している。従来、AI開発者はデータセットの各データポイントに説明を付けてモデルを訓練していたが、強化学習はそのような説明を付ける必要をなくし、トレーニングデータセットの作成を容易にする。
また、同社は「新しいアーキテクチャ」を探索する計画を示唆している。これは、ほとんどのLLMの基盤となっているTransformerニューラルネットワークアーキテクチャを超えた技術を探求する可能性を示している。近年、特定の面でより効率的なMamba(マンバ)と呼ばれる競合アーキテクチャが登場しており、そうした方向性も視野に入れていると考えられる。
モデルのトレーニングには数万のGPUを使用する計画で、非LLMモデル向けの「vLLM似のプラットフォーム」の開発も進めるという。vLLMは言語モデルのメモリ使用量を削減するために広く使われているオープンソースAIツールだ。
新たなスーパーインテリジェンス競争
Reflection AIは、元OpenAIの主任研究者Ilya Sutskeverが設立したSafe Superintelligence (SSI)と同様に、商業的製品よりもスーパーインテリジェンスの直接的な追求を目指すという戦略を取っている点で注目される。このSSIは近い将来の収益見込みがないにもかかわらず、最大300億ドルの評価額で資金調達の交渉中とされる。
一方、OpenAIはスーパーインテリジェンスについての言及を減らし、汎用人工知能(AGI、人間のように多様なタスクを処理できるAI)から距離を置き始めている。AGIはOpenAIの掲げる目標ではあるものの、同社は現在、AGIを特定のマイルストーンとしてではなく、徐々に進化するものとして描写するようになっている。
同様に、AnthropicもAGIという用語を「強力なAI」という表現に変更している。両社とも、業界で「推論モデル」と呼ばれる最新のスケーリングパラダイムに焦点を当てており、これは強化学習に大きく依存している。このアプローチは、明確な正誤がある数学やコーディングの分野で特に有望視されている。
Sources