AIエージェントが仕事をどこまで代替できるかという問いに、より厳しい実務型の数字が出始めた。Scale LabsのRemote Labor Index(RLI)で、AnthropicのFable-5が16.10%のAutomation Rateを記録した。RLIの初期公開時に最高だった2.5%から大きく上がり、Opus 4.8の8.33%、Codex GPT 5.5の6.25%を上回っている。

この数字は、ベンチマーク正答率とは性格が違う。RLIは実際のフリーランス案件をもとに、AIが提出した成果物が人間の専門家による納品物と比べて、依頼主に受け入れられる水準に達したかを判定する。16.10%は、AIがRLIの案件群のうち16.10%で、専門家の納品物に並ぶ成果を出したという意味である。

同時に、この数字は遠隔労働の16.10%が自動化済みと読めるものではない。RLIは対象を標準化できるフリーランス案件に絞り、直接の顧客対応、物理作業、長期的な効果測定が必要な仕事などを除外している。今回の更新が示すのは、AIエージェントが実務成果物を作る力の上限が短期間で動いたことと、その上限がなお多くの仕事を残していることだ。

AD

16.10%は「依頼主が受け入れる成果物」の割合を示す

RLIの中心指標であるAutomation Rateは、AIが作った成果物を人間の基準成果物と比べ、合理的な依頼主が受け入れる水準に達した案件の割合である。評価者はAIの成果物を3段階で判定し、上2段階を完了として数える。3段階は「基準に満たない」「人間成果物と同等に受け入れ可能」「人間成果物を上回る」に分かれる。

この設計は、AIが答えを一つ返す試験とは異なる。RLIの各案件には、作業依頼文、入力ファイル、人間の専門家が納品した基準成果物、作業時間や報酬などの経済データが含まれる。評価の対象は、文章に加えて、CAD、3Dモデル、動画、音声、デザインファイル、データ分析成果物に広がる。成果物を開き、必要なファイルを確認し、依頼文を満たしているかを判断する作業そのものが専門的である。

Scale Labsによれば、RLIは358人の認証済みUpworkフリーランサーから集めた550件の初期候補を、完全性、再現性、専門的な品質で絞り込んだ240件で構成される。総経済価値は14万3991ドル、平均の人間作業時間は28.9時間、中央値は11.5時間である。平均案件価値は632.60ドル、中央値は200ドルとされる。小問の集合ではなく、数時間から数十時間の専門作業に近い単位で測っている点が、RLIの読み方を決める。

定量評価には240件のうち230件の非公開セットが使われ、10件だけが公開セットとして提供される。公開セットを少なくしたのは、将来のモデルが問題内容を訓練データとして取り込むリスクを下げるためである。RLIは透明性と汚染対策の両方を取ろうとしているが、外部から完全に同じリーダーボード数字を再現することは難しい。

上位モデルは初期公開時の上限を超えた

今回のリーダーボードでは、Fable-5が16.10%で首位、Opus 4.8が8.33%で2位、Codex GPT 5.5が6.25%で3位に入った。初期公開時の最高値はManusの2.5%で、RLIの論文は当時のAIエージェントが実務型案件の大半を完了できないと結論づけていた。新しい上位3モデルは、いずれもその2.5%を明確に上回った。

Fable-5の数字には但し書きが付く。Scale Labsは、アクセス制限の前にFable-5で評価できたのは240件中218件だったと説明している。残る22件は分野や難度に偏っていないとされ、仮に未評価分をすべて失敗として扱ってもAutomation Rateは14.6%になる。首位は動かないが、16.10%という最終値は残りの評価完了を待つ数字でもある。

この但し書きの背景には、Anthropicが2026年6月12日に公表したFable 5とMythos 5へのアクセス停止がある。Anthropicは、米政府が国家安全保障上の権限を根拠に、米国外の利用者や外国籍従業員を含めたアクセス停止を求めたと説明した。Scale Labsの注記は、この外部事情によってFable-5の評価が途中で止まったことを示している。

それでも、今回の更新で見える変化は小さくない。RLIは成功率が低い段階でもEloで細かな進歩を追う設計だが、Automation Rateそのものが2.5%から二桁に乗った。AIエージェントの能力比較は、ほとんど全滅の中でどれが相対的に良いかという段階から、一部の実務型案件で専門家水準に届く成果が出てきたかという段階へ移った。

AD

RLIはソフトウェアや文章に偏らない仕事束を狙っている

RLIの価値は、対象の広さにある。AIエージェントの評価は、ソフトウェア修正、Web操作、調査、文章作成のような領域に寄りやすい。これらは重要な仕事だが、遠隔で発注される実務の全体像を代表しにくい。RLIの論文は、既存のエージェント評価が個別技能や簡略化された環境に偏り、実際の労働自動化を測るには不十分だと位置づけている。

RLIはUpworkの分類をもとに、動画・アニメーション、3Dモデリング・CAD、グラフィック・編集デザイン、音声・音楽制作、建築、プロダクトデザイン、Web開発、データ抽出、翻訳、契約法関連など、23領域から案件を残している。入力ファイルや納品形式も多様で、単一のテキスト回答ではなく、複数ファイルの整合性や専門ソフトで開ける成果物が問われる。

この設計により、RLIはモデルが知識を持っているかよりも、依頼文と素材を受け取り、納品物として成り立つ形に仕上げられるかを測る。建築やCADの案件では、見栄えの良い画像だけでは足りない。寸法、構造、ファイル形式、編集可能性、依頼内容との整合性が崩れれば、実務の成果物としては失敗になる。

一方で、RLIは遠隔労働の全体を覆うわけではない。対象からは、物理的な現地作業、クライアントとの直接対話が本質になる仕事、ライブサービスのテスト、SEOのように結果確認に時間がかかる仕事、個人情報の問題が大きい一部の法務カテゴリなどが外されている。RLIの数字は、このような除外条件を踏まえて読む必要がある。

人間評価が残ること自体が、仕事の難しさを物語る

RLIでは評価も自動化されていない。Scale Labsは、複雑なマルチモーダル成果物を現在の自動評価システムだけで正確に判定するのは難しいとして、訓練された評価者と専門家による手作業の評価を採用している。Automation Rateの判定は3人の独立評価の多数決で決まり、同指標の評価者間一致率は94.4%とされる。

この点は、AIエージェントの現在地を読むうえで外せない。仕事を完了するには、ファイルを作り、そのファイルが依頼内容を満たしているか、納品物として使えるかを検査しなければならない。CAD、動画、音声、デザイン、コード、表計算をまたぐ成果物では、判定の側にもソフトの操作、専門的な見方、依頼主の期待水準の理解が必要になる。

失敗の内訳も、AIがどこでつまずくかを示している。RLIの初期分析では、失敗案件の主な要因として、品質不足が45.6%、未完成の納品物が35.7%、破損ファイルや誤った形式などの技術・ファイル問題が17.6%、成果物内の不整合が14.8%とされた。文章の一部が正しい、画像がそれらしく見える、ファイルが存在する、といった条件を満たしても、実務の完了には届かない場合が多い。

ここに、RLIがAI導入判断に与える実務上の意味がある。企業や発注者が知りたいのは、モデルが問題を解けるかよりも、提出された成果物を検収できるかである。RLIの16.10%は進歩の数字だが、残る大半の案件では品質、完成度、形式、整合性のどこかで人間の検査と修正が必要になる。

AD

成功率の上昇と評価コストの両立が焦点に

RLIは、AIエージェント評価の基準を実務に近づけた一方で、運用上の制約も抱える。手作業の評価は精度を上げるが、頻繁なモデル更新に追いつくにはコストがかかる。Scale Labs自身も、厳密な手動評価は複雑な成果物を測るために必要だが、新しいエージェントを高頻度で試すには時間と費用が重いと説明している。

モデル側の実行条件も読み方に影響する。RLIではAIエージェントに標準化されたプロンプト、案件依頼文、入力ファイル、評価プラットフォームで扱える形式の説明が与えられる。生成予算は1案件あたり最大30ドルに設定され、CLI型環境とGUI型のコンピュータ操作環境のうち、各エージェントにとって最良の結果がリーダーボードに載る。これは能力の上限を測る設計であり、現場での平均的な導入結果をそのまま保証するものではない。

今回の更新で、遠隔労働自動化の議論は二つの数字を同時に見る段階に入った。第一に、Fable-5の16.10%という上限が示す速度である。実務型の成果物でも、上位エージェントは数カ月前の最高値を大きく超えた。第二に、同じベンチマークで8割以上の案件がまだ専門家水準に届いていないという残り幅である。RLIは、AIが仕事を置き換えたかどうかを一言で決めるための表ではなく、どの種類の納品物が先に崩れ、どの種類が最後まで人間の検査を要求するのかを追う測定器になりつつある。

次に見るべきなのは、Fable-5の残り22件が埋まった後の最終値、OpusやOpenAI系エージェントの追随、そしてRLIのような手動評価をどこまで継続的に運用できるかである。AIエージェントの実務能力は速く伸びている。その伸びを仕事の置換率へ直結させるには、評価対象、除外された仕事、人間による検収の負担を一緒に見なければならない。