Term

Humanity's Last Exam

別名: HLE, Humanity’s Last Exam

Overview

AIの能力を測定するための高度なベンチマーク。従来のテストが飽和状態にあるため、Google検索でも容易に答えが見つからない3,000問の難問で構成されている。モデルのエージェント能力や深い推論能力を評価する指標として注目されている。

Mentioned Articles

8 件

External Mentions

2 件