Microsoft Researchが公開したSkillOptは、AIエージェントの「スキル」を人の手で磨く作業を、検証ループによる自動学習へ置き換えようとする取り組みだ。対象はモデルの重みではない。エージェントが実行時に読み込むMarkdownなどの自然言語スキル文書である。SkillOptはこの文書を、固定されたモデルの外側に置かれた訓練可能な状態として扱う。

この発表が揺さぶる前提は小さくない。これまでエージェントの業務手順、ツール利用方針、出力形式、失敗回避策といったものは、人間がスキルファイルやプロンプトを読み返し、経験則で書き直す領域に留まりがちだった。SkillOptはそこへ、ロールアウト・反省・編集・検証・採用という機械的な手続きを持ち込む。候補となる編集は、読んで筋が通りそうに見えるだけでは採用されない。固定されたターゲットモデルで検証データを流し、スコアが改善したときだけ次のスキルとして採用される。

論文は2026年5月22日にarXivへ投稿され、5月25日にv2へ改訂された。GitHubリポジトリでは6月2日にPyPI版SkillOpt 0.1.0の公開、6月8日にClaude Code・Codex・Copilot向けのSkillOpt-Sleepプラグイン追加が告知されている。研究コードにとどまらず、日常的なエージェント利用の履歴から記憶やスキルを検証付きで育てる方向まで視野に入れた公開といえる。

AD

手順を重みに閉じ込めず、文書として訓練する

SkillOptの核心は、ターゲットモデルと最適化モデルを分ける設計にある。ターゲットモデルは現在のスキルを読み込み、あらかじめ決められたタスク群を実行する。その実行ログ、ツール呼び出し、採点結果、失敗理由が、次の編集候補を生成するための素材になる。

最適化モデルは、成功例と失敗例を小さなまとまりに分けて読み込み、繰り返し現れる手順上の問題を探す。そのうえでスキル文書への追加・削除・置換の案を作る。このとき、すべての案を一気に流し込むわけではない。編集量に上限を設け、候補スキルが前の版から大きく離れすぎないようにしている。論文とプロジェクトページは、この上限をテキスト上の学習率と表現している。

候補スキルは、学習に使ったタスクとは別の検証セットで評価される。検証スコアが現在のスキルを上回れば採用、下回れば棄却される。棄却された編集は、同じ方向の失敗を繰り返さないための負の記憶として保持される。さらにエポック末には、以前のスキルと現在のスキルを比較し、長く有効な手順を取り込むスローアップデートも走る。

この構成が目指すのは、エージェントの行動をその場の反省文で膨らませることではない。最終的に配布されるのは、固定モデルが追加の推論呼び出しなしで読み込めるbest_skill.mdだ。GitHub READMEはこの成果物を通常300〜2,000トークン程度のコンパクトな文書として説明しており、VentureBeatはベンチマーク全体で最終スキルが2,000トークンを超えず、中央値は約920トークンだったと伝えている。

52設定すべてで最良または同率最良と報告

Microsoftのプロジェクトページによれば、SkillOptは6つのベンチマーク、7つのターゲットモデル、3つの実行ハーネスにまたがる52の評価設定すべてで、最良または同率最良の結果を出した。比較対象には、スキルなし・人間作成スキル・LLMの一回生成スキル・Trace2Skill・TextGrad・GEPA・EvoSkillが含まれる。

GPT-5.5の直接チャット実行では、スキルなしに対して平均+23.5ポイントの改善が示された。プロジェクトページの表には、Codexハーネスで+21.8ポイント、Claude Codeハーネスで+18.6ポイントという平均改善値も並ぶ。評価対象はSearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMath、ALFWorldと、単発の質問応答からツール利用を含む多段タスク、文書理解、逐次意思決定まで幅広い。

小型モデルへの効果も目を引く。プロジェクトページの表では、GPT-5.4-nanoが直接チャットで平均+24.9ポイント、Qwen3.5-4Bが+19.2ポイントの改善を示している。これはスキル文書がモデル内の知識を増やすのではなく、処理手順・確認の順序・ツール利用の作法を外から補うためだ。そうした手順の明文化から受ける恩恵は、モデルが小さいほど大きくなりやすい。

転用性についても強調されている。プロジェクトページは、GPT-5.4向けに最適化したLiveMathスキルをGPT-5.4-nanoへ移して+15.2ポイント、Codexで訓練したSpreadsheetBenchスキルをClaude Codeへ移して+31.8ポイントの改善があったと示す。特定ハーネスの偶然の挙動を突いただけなら、こうした移植はうまく機能しないはずだ。検証を経て残った文書が再利用可能な作業手順を持つという点が、SkillOptの主張の核にある。

AD

失敗した編集を覚えることで、自己更新の暴走を抑える

SkillOptの価値は、自己改善をうたう点よりも、自己更新にブレーキを組み込んでいる点にある。VentureBeatの取材でMicrosoft Research AsiaのYifan Yang氏は、問題はスキルを変更できるかどうかではなく、その変更が改善だと保証できないことだと語っている。同氏は、ステップ幅の制御がないためにスキルが流れること、検証がないためにもっともらしい修正が性能を下げること、負の記憶がないために失敗した編集が戻ってくることを、繰り返し起きる失敗として挙げた。

この問題は、ツールを使うエージェントほど深刻になる。ゼロショットのモデルは、最終回答の推論よりも、途中の形式・確認手順・ツールの使い分け・再試行の判断といった部分で崩れやすい。SkillOptはそこで、「よく考える」といった抽象的な指示ではなく、ログに現れた失敗を手順として文書へ戻す。採点できるタスクを走らせ、候補を検証し、失敗した編集を次回の反省材料に積み上げることで、自己修正を提案だけで終わらせない構造にしている。

プロジェクトページのアブレーション実験も、各制御部品の役割を裏付けている。SearchQA・Spreadsheet・LiveMathの比較では、編集予算(学習率相当)・棄却編集バッファ・メタスキルとスローアップデートをそれぞれ外した条件が、いずれも標準設定より低いスコアになった。とりわけSpreadsheetでは、メタスキルとスローアップデートを外すと77.5から55.0へ落ちる。スキル文書の自動編集では、良い編集を思いつくことと同じくらい、採用しないと判断することが性能を支えている。

ALFWorldの例もわかりやすい。プロジェクトページは、GPT-5.4-miniをターゲット、GPT-5.5を最適化モデルとする実行で、選択スコアが68.6%から81.4%へ上がり、最終的なALFWorld hardのテストスコアが70.9%から85.8%へ改善したと示している。この過程では、訓練スコアが上がっても検証で落ちた候補が棄却されている。自己更新の成果は、採用された編集だけでなく、止められた編集にも現れている。

実務導入の重さは、モデルではなく採点器に寄る

SkillOptは、どんな業務にもすぐ適用できる万能の自動改善装置ではない。VentureBeatはYang氏の説明として、実務で重いのは最適化モデルそのものよりも、代表的な検証セットと採点器を用意する部分だと伝えている。数十件程度の代表例と、安定したフィードバック信号が必要になる。主観的で正解が揺れる仕事では、人間またはモデルによる評価器を設計し、その安定性を監視し続けなければならない。

この制約はSkillOptの弱点というより、導入先をはっきりさせるものだ。文書から正確な数値を抽出する、請求や保険処理を一定の形式で返す、コンプライアンス確認の手順を守る、表計算タスクで検算を通す——こうした領域では、採点可能な成果を定義しやすい。一方、戦略提案や創作、曖昧な品質評価のような作業では、スキルを自動更新する前に、何をもって成功とするかを固める必要がある。

コスト面でも、論文上の大規模実験と日常利用は分けて考えるべきだ。VentureBeatによれば、研究ベンチマークでは訓練トークンが最大2億1,000万に達し得るが、その多くは巨大な検証セットの再採点に由来する。Yang氏は、コミュニティフレームワークのGBrainでClaude Sonnetを使って単一タスクのスキルを訓練する場合、平均で1〜5ドル程度だと述べている。導入費用は一回限りの最適化として回収できるが、その前に評価ハーネスを設計するコストが発生する。

SkillOpt-Sleepは、この考え方を日常のローカルエージェント利用へ近づける試みだ。GitHub READMEによれば、過去のセッションを集めて繰り返し発生するタスクを掘り出し、オフラインで再実行したうえで、検証ゲートを通った記憶やスキルを採用候補として提示する。Claude Code・Codex・Copilot向けプラグインが用意されており、gbrain-evalsのskillopt-v1では、欠陥のあるスキルがClaudeとCodexの実ループでheld-outスコアが0.00から1.00へ改善したとされている。

AD

エージェント改善は「書き換え」から「採用判断」へ移る

SkillOptが示している方向は、AIエージェントの改善をモデル更新だけに閉じ込めないことだ。モデルの重みを変えずに外側のスキル文書を検証付きで訓練するなら、企業は導入済みのモデルや実行環境をそのままに、業務手順だけを更新できる。最終成果物が短いMarkdownであれば、人間が監査し、差し戻し、版管理する余地も残る。

ただし、ここで中心になる能力は反省文を生成することではない。何を採用して何を棄却するかを測る仕組みである。検証セットが偏っていれば、スキルはその偏りに向けて最適化される。採点器が不安定なら、もっともらしい編集が通り抜ける危険は残る。SkillOptは自己改善を可能にする魔法ではなく、自己改善を運用可能な範囲へ絞り込むための枠組みとして読むべきだ。

それでも、今回の公開はエージェント運用にとって実務的な意味を持つ。スキルは、プロンプトより長く、ファインチューニングより軽く、業務手順書より機械的に検証しやすい中間層になりつつある。SkillOptはその中間層を、経験則で修正される文書から、テストによって育てられる成果物へと押し上げた。次の焦点は、各社が自社業務の失敗ログをどれだけ採点可能なタスクへ変換できるかにある。