DELEGATE-52

Overview

最終更新: 2026年7月9日

Microsoft Researchの研究チームが開発した、大規模言語モデル（LLM）によるドキュメント編集の正確性を評価するためのテストスイート。コーディング、結晶学、家系図、音楽記譜法など52の専門ドメインにわたる実世界のドキュメント環境をシミュレートする。バックトランスレーション（逆翻訳）の概念を応用し、前方編集と後方編集を繰り返すラウンドトリップ（往復）操作を通じて、モデルがどれだけ元の情報を維持できるかを定量的に測定する。

Mentioned Articles

2 件

External Mentions

3 件

arXivAgentRiskBOM: A Risk-Scoping Security Bill of Materials for Agentic AI Systems
▲ 0Srimonti Dutta2026年6月20日
arXivLLMs Corrupt Your Documents When You Delegate
▲ 0Philippe Laban2026年4月17日
arXivMARCA: A Checklist-Based Benchmark for Multilingual Web Search
▲ 0Thales Sales Almeida2026年4月15日

Overview

Mentioned Articles

仕事を任されたAIはデータを改ざんする？Microsoftの最新研究が暴く自律型エージェントの罠

OpenAI「ChatGPT Atlas」発表、ブラウザ戦争はAI主導の新時代へ。Googleの牙城を崩す“第二のChrome”となるか？

External Mentions