Tech Product

SimpleQA

Overview

AIモデルが事実に基づいた質問に対して、どれだけ正確に回答できるかを測定するための評価指標。従来のベンチマークが正答率のみを重視していたのに対し、SimpleQAは「分からない」と回答して棄権する能力や、誤った回答(ハルシネーション)の割合を厳密に評価することに重点を置いている。

Mentioned Articles

3 件

External Mentions

10 件