中国のAIスタートアップ・MiniMaxは2026年3月、新モデル「M2.7」を公開した。

このモデルを際立たせているのは性能の高さよりも、開発プロセスへの能動的な参加だ。M2.7の前身バージョンは強化学習(RL)研究ワークフローの30〜50%を自律的に処理し、100回以上の最適化ループを経て内部評価セットで30%の性能向上を達成したとされる。OpenAIのGPT-5.3 Codexでも類似のアプローチが採用され始めており、「AIが自己改善に参加する」という概念は実装の段階へ移行しつつある。

価格は入力$0.30・出力$1.20(100万トークンあたり)と欧米トップモデルの十分の一以下に設定されており、中国AIがプロプライエタリ戦略へ転換する節目の一手でもある。

AD

AIが自身の開発工程に入り込む仕組み

MiniMaxは社内のRLチームを対象に、M2.7の前身バージョンに「エージェントハーネス」と呼ばれる作業環境を構築させた。エージェントハーネスとは永続メモリ、ツールアクセス、構造化スキル、評価ルーチン、実験追跡機能を束ねた作業基盤のことで、モデルはこの環境の中で実際の研究業務をこなした。

RLチームの日常業務を具体的に示すと、文献調査から始まり、実験仕様の追跡、データパイプラインの準備、実験の実行、ログの読み取り、デバッグ、メトリクス分析、コード修正、マージリクエスト、スモークテストまで、ワークフロー全体の30〜50%をM2.7が担った。人間の研究者が介入するのは重要な意思決定や議論が必要な場面のみで、それ以外の作業はモデルが継続的に進める。

さらに重要なのが、M2.7がハーネス自体の改善にも参加した点だ。内部システムがフィードバックを収集し、内部タスク用の評価セットを構築した上で、スキル実装、メモリ機構、ワークフローアーキテクチャを継続的に改善した。MiniMaxが示した具体例では、M2.7はプログラミング性能の最適化を目的に「失敗軌跡の分析→変更計画の策定→スキャフォールドコードの修正→評価の実行→結果の比較→採用か差し戻しかの決定」というループを100回以上、直接の人間介入なしに回した。発見した最適化には、温度・頻度ペナルティ・存在ペナルティといったサンプリングパラメーターの最適な組み合わせの特定、バグ修正後に他ファイルの同パターンを自動検索するガイドラインの設計、エージェントループにおけるループ検出の追加などが含まれ、最終的に内部評価セットで30%の性能向上を実現したとMiniMaxは報告している。

低リソース環境での自律性テストとして、MiniMaxはOpenAIがオープンソース化したMLE Bench Liteの22件の機械学習コンペにM2.7を参加させた。A30 GPU 1枚で動かせる規模のコンペ群に対して、短期記憶・自己フィードバック・自己最適化の3モジュールで構成されるシンプルなハーネスを用い、各ラウンド後にモデルが短期記憶ファイルを生成して現ラウンドの結果を自己批判し、次ラウンドへの最適化方向を導出する仕組みで運用した。24時間×3試行の平均メダル獲得率は66.6%で、Claude Opus 4.6の75.7%、GPT-5.4の71.2%に次ぎ、Gemini 3.1と同率だった。

主要ベンチマークで欧米トップと肩を並べた実力

ソフトウェアエンジニアリング分野では、SWE-Proで56.22%を記録してGPT-5.3-Codexと同水準に達した。プロジェクト全体の納品能力を測るVIBE-Proでは55.6%(Claude Opus 4.6とほぼ同水準)、複雑なシステム理解を問うTerminal Bench 2では57.0%を示している。実際の運用場面での成果として、本番環境の障害復旧時間を複数の事例で3分未満に短縮したとMiniMaxは報告している。M2.7が実際に動くのはコード補完ではなく本番システムの文脈の中だ。アラートの原因を推論し、デプロイタイムラインと照合して仮説を立て、データベースを自律的に確認して根本原因を特定する。

プロフェッショナル業務向けでは、45モデルが参加するGDPval-AA評価でELOスコア1,495を記録し、Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.4に次ぐ4位となった。Word・Excel・PowerPointでの複雑な編集タスクで高い精度を発揮し、2,000トークンを超える40種類の複雑スキルにわたるコンプライアンス率は97%に達した。TSMCを題材にした財務分析デモでは、年次報告書の自律的読み込み、売上予測モデルの構築、プレゼン資料と調査レポートの生成を一連の流れでこなし、金融専門家からは「初稿として直接使えるレベル」と評価されたという。

Artificial Analysis Intelligence Indexでのスコアは50で全体8位となり、前世代のM2.5から1か月でスコアを8ポイント改善した。ハルシネーション率(事実誤認の発生率)は34%で、Claude Sonnet 4.6の46%、Gemini 3.1 Proの50%より低い数値だ。ただしBridgeMindが提供するBridgeBenchでは、M2.5が12位だったのに対してM2.7は19位と後退しており、最適化の方向性によるトレードオフが生じていることを示している。

AD

「自己進化」の実態:誇大広告と現実の境界線

「自己進化」という表現はSF的な連想を引き起こしやすい。実態は、ずっと地味だ。M2.7が変えるのはコアアーキテクチャではなく、その周りを取り巻くハーネスだ。人間が設定した目標とインフラの範囲内で、モデルは周辺システムの改善に参加する。モデルの重みそのものは変化せず、どのツールを呼び出すか、どのワークフローに従うか、どの結果を記憶するか、どの変更が後続の試行を改善するかを学習する。

現代のAIシステムで性能向上の多くがモデルの重みよりスキャフォールドの改善から生まれているという現実を踏まえると、「自己進化」の本質はシステムレベルの自己改訂と呼ぶほうが正確だ。MiniMax自身も「将来のAI自己進化はデータ構築・モデル訓練・推論アーキテクチャ・評価の各段階を人間の関与なしに調整する方向へ徐々に移行する」と表現しており、現時点での完全自律を主張していない。人間は依然として目標設定、インフラ提供、ガードレールの決定を担い、「成功」の基準も人間が定義している。

この研究の系譜は2003年まで遡る。Jürgen Schmidhuber氏が提唱した「ゴーデル機械(Godel Machine)」は、形式的な改善の証明が存在する場合にのみ自己コードを変更するという理論的枠組みを示した。Sakana AIの「Darwin-Gödel Machine」やKAUST研究室の「Huxley-Gödel Machine」はより実践的なアプローチとして、AIエージェントが自己コードを反復修正して最良のバリアントを進化的プロセスで選択する手法を試みている。OpenAIのGPT-5.3 CodexもM2.7と類似した報告をしており、訓練中のバグ発見、デプロイ管理、テスト評価でモデルの初期バージョンを活用したとされる。

独立した追跡調査によるとM2.7は推論速度がやや遅く(約49トークン/秒)、同クラスのモデルと比べて冗長な出力をする傾向がある。応答速度よりもタスクの深さ・ツール活用・ワークフローの信頼性を優先する用途に向いている。長時間のエンジニアリングタスクや複数ステップのワークフロー自動化では、毎秒のトークン数より1回の試行で正しく完走できるかどうかの方が重要になるからだ。

最安値戦略と中国AIのプロプライエタリ化が交差する地点

M2.7はMiniMaxとして初のプロプライエタリモデルだ。以前のM2シリーズは段階的にオープンソース化されていたが、M2.7は現時点でモデルの重みを公開していない。この転換はMiniMaxに限らず、z.aiがGLM-5 Turboをクローズドで発表し、AlibabaのQwenチームでも上級研究者の離脱を経てプロプライエタリ路線への傾斜が報じられるなど、業界横断的な動きとして進行中だ。

過去1年間、中国モデルはグローバルAI使用量の30%を占めるまでに台頭した。その成長を支えたオープンソース戦略を有力スタートアップが見直し始めている背景には、能力競争の高度化と開発コストの増大がある。知的財産の保護とマネタイズの優先度が高まる中で、OpenAIやGoogleが長年実践してきたプロプライエタリ路線を採用する判断は、経済合理性として理解できる。

価格面では欧米競合に対して依然大きな優位性を保っている。入力$0.30・出力$1.20(100万トークンあたり)はxAI’s Grok 4.1 Fastに次ぐ安さで、Claude Opus 4.6(入力$5.00・出力$25.00)と比べると10分の1以下だ。同等の知能レベルで標準的なインテリジェンスインデックスを実行した場合、M2.7は$176に対してGLM-5は$547、Kimi K2.5は$371とVentureBeatは分析している。Claude Code、Cursor、Kilo Code、Clineをはじめとする11以上の主要開発ツールへの公式インテグレーションも提供しており、MCP(Model Context Protocol)によるWebSearch・画像理解ツールのネイティブサポートも備える。ただし上海本社のMiniMaxは中国法への準拠が求められ、オフラインやローカルでの使用も現時点では不可能だ。規制産業や政府関連業務を抱える欧米企業にとって、この点はコストや性能以前の判断基準になる。

M2.7が示す方向性を一言で表すなら、「人間が改善するシステムから、システムが自ら改善に参加するサイクルへの移行」だ。モデルが自身のハーネスを改善し、その改善が次世代モデルの性能向上に寄与するループが確立されれば、人間のみによる静的な改善サイクルを持つ組織と比べて反復速度に差が生まれる。現時点での実装はその入り口にすぎないが、MiniMaxが自社組織をその実験台にしているという事実は、単なる発表文書の主張とは重みが異なる物と言えるだろう。


Sources