Term

WebTailBench

Overview

Microsoftが提唱した、Webエージェントのための新しい評価ベンチマークです。従来のベンチマークが単純なタスクに偏っていたのに対し、複数サイトを横断する複雑な操作や、個人情報の入力、決済などのリスクを伴う「クリティカル・ポイント」を含むタスクで構成されています。AIが単にタスクを成功させるだけでなく、不適切な操作を拒否できるか、重要な場面でユーザーの承認を求められるかといった安全性も厳密に測定します。

Mentioned Articles

1 件

External Mentions

3 件