Term

Humanity's Last Exam

別名: HLE, Humanity’s Last Exam

Overview

最終更新: 2026年7月9日

AIの能力を測定するための高度なベンチマーク。従来のテストが飽和状態にあるため、Google検索でも容易に答えが見つからない3,000問の難問で構成されている。モデルのエージェント能力や深い推論能力を評価する指標として注目されている。

Mentioned Articles

8 件

テクノロジー
GPT-5.2とGemini 3 Proを凌駕すると謳う「Qwen3-Max-Thinking」を中国Alibabaが発表
2026年1月23日、Alibaba CloudのQwenチームは、最新のフラッグシップ推論モデル「Qwen3-Max-Thinking」を発表した。このモデルのリリースは、生成AI業界における「推論（Reasoning […]
2026年1月27日約 9 分
テクノロジー
Googleが「Gemini 3 Flash」をリリース：検索とAIエージェントの常識を覆す「爆速・高知能」モデルの全貌
2025年12月18日、Googleは同社の最新AIモデル、「Gemini 3 Flash」を正式にリリースした。だが、以前から存在した軽量版の“Flash”とは質的に異なる物で、単なる「軽量版モデルの更新」ではない。 […]
2025年12月18日約 10 分
テクノロジー
Google、自律型AIエージェント「Gemini Deep Research」の大規模アップデートを実施：Gemini 3 Pro搭載で「検索」は「調査」へ
2025年12月12日、AI業界にとって歴史的な分水嶺となる一日が訪れた。OpenAIが最新「GPT-5.2」をリリースしたその同じ日、Googleは戦略的な一手として「Gemini Deep Research」の大規模 […]
2025年12月12日約 8 分
テクノロジー
中国発AI「Kimi K2 Thinking」、性能でGPT-5を凌駕：オープンソースの新時代到来か
中国のAIスタートアップMoonshot AIが発表したオープンソースモデル「Kimi K2 Thinking」が、主要な性能ベンチマークでOpenAIのGPT-5やAnthropicのClaude Sonnet 4.5 […]
2025年11月10日約 10 分
テクノロジー
Google、最強の思考モデル「Gemini 2.5 Deep Think」をUltra会員向けにリリース：OpenAI o3やGrok 4を上回るパフォーマンスを発揮
Googleが自社のAIモデル群の頂点に立つ「Gemini 2.5 Deep Think」を、ついに一般向けに解放した。驚異的な問題解決能力を誇るこのモデルは、月額249.99ドル（36,400円）の最上位プラン「AI […]
2025年8月2日約 7 分
テクノロジー
「博士レベルの知性」は本物か。xAI「Grok 4」徹底解説。最難関ベンチマークでOpenAI超え、その実力と課題
Elon Musk氏率いるAIスタートアップ、xAIが2025年7月9日（現地時間）、新たなフラッグシップAIモデル「Grok 4」を発表した。Grok 4は、特に人類の知性が試される最難関ベンチマークの一つ「Human […]
2025年7月11日約 11 分
テクノロジー
Perplexity、AIリサーチツール「Deep Research」を無料公開：GeminiやChatGPTに対抗
AI検索スタートアップのPerplexityは、新たなAIツール「Deep Research」を発表した。このツールは、詳細なリサーチレポートをわずか数分で作成する機能を持っているが、競合他社が月額数万円のサブスクリプシ […]
2025年2月15日約 5 分
テクノロジー
OpenAIの新しい「Deep Research」エージェントは依然として誤りやすいツールに過ぎず、人間レベルの専門家ではない
OpenAIの「Deep Research」は、人間の専門家なら何時間もかかる作業を数分で完了すると約束する、最新の人工知能（AI）ツールである。 ChatGPT Proの機能として組み込まれ、訓練された分析者に匹敵する […]
2025年2月12日約 7 分

External Mentions

3 件

arXivHumanity's Last Code Exam: Can Advanced LLMs Conquer Human's Hardest Code Competition?
▲ 0Xiangyang Li2025年6月15日
Hacker NewsHumanity's Last Exam
▲ 59uladzislau2025年2月3日
Hacker NewsResults of "Humanity's Last Exam" benchmark published
▲ 103tzury2025年1月23日

Humanity's Last Exam

Overview

Mentioned Articles

GPT-5.2とGemini 3 Proを凌駕すると謳う「Qwen3-Max-Thinking」を中国Alibabaが発表

Googleが「Gemini 3 Flash」をリリース：検索とAIエージェントの常識を覆す「爆速・高知能」モデルの全貌

Google、自律型AIエージェント「Gemini Deep Research」の大規模アップデートを実施：Gemini 3 Pro搭載で「検索」は「調査」へ

中国発AI「Kimi K2 Thinking」、性能でGPT-5を凌駕：オープンソースの新時代到来か

Google、最強の思考モデル「Gemini 2.5 Deep Think」をUltra会員向けにリリース：OpenAI o3やGrok 4を上回るパフォーマンスを発揮

「博士レベルの知性」は本物か。xAI「Grok 4」徹底解説。最難関ベンチマークでOpenAI超え、その実力と課題

Perplexity、AIリサーチツール「Deep Research」を無料公開：GeminiやChatGPTに対抗

OpenAIの新しい「Deep Research」エージェントは依然として誤りやすいツールに過ぎず、人間レベルの専門家ではない

External Mentions