GPT-5.2とGemini 3 Proを凌駕すると謳う「Qwen3-Max-Thinking」を中国Alibabaが発表
2026年1月23日、Alibaba CloudのQwenチームは、最新のフラッグシップ推論モデル「Qwen3-Max-Thinking」を発表した。このモデルのリリースは、生成AI業界における「推論(Reasoning […]
別名: HLE, Humanity’s Last Exam
AIの能力を測定するための高度なベンチマーク。従来のテストが飽和状態にあるため、Google検索でも容易に答えが見つからない3,000問の難問で構成されている。モデルのエージェント能力や深い推論能力を評価する指標として注目されている。
2026年1月23日、Alibaba CloudのQwenチームは、最新のフラッグシップ推論モデル「Qwen3-Max-Thinking」を発表した。このモデルのリリースは、生成AI業界における「推論(Reasoning […]
2025年12月18日、Googleは同社の最新AIモデル、「Gemini 3 Flash」を正式にリリースした。 だが、以前から存在した軽量版の“Flash”とは質的に異なる物で、単なる「軽量版モデルの更新」ではない。 […]
2025年12月12日、AI業界にとって歴史的な分水嶺となる一日が訪れた。OpenAIが最新「GPT-5.2」をリリースしたその同じ日、Googleは戦略的な一手として「Gemini Deep Research」の大規模 […]
中国のAIスタートアップMoonshot AIが発表したオープンソースモデル「Kimi K2 Thinking」が、主要な性能ベンチマークでOpenAIのGPT-5やAnthropicのClaude Sonnet 4.5 […]
Googleが自社のAIモデル群の頂点に立つ「Gemini 2.5 Deep Think」を、ついに一般向けに解放した。驚異的な問題解決能力を誇るこのモデルは、月額249.99ドル(36,400円)の最上位プラン「AI […]
Elon Musk氏率いるAIスタートアップ、xAIが2025年7月9日(現地時間)、新たなフラッグシップAIモデル「Grok 4」を発表した。Grok 4は、特に人類の知性が試される最難関ベンチマークの一つ「Human […]
AI検索スタートアップのPerplexityは、新たなAIツール「Deep Research」を発表した。このツールは、詳細なリサーチレポートをわずか数分で作成する機能を持っているが、競合他社が月額数万円のサブスクリプシ […]
OpenAIの「Deep Research」は、人間の専門家なら何時間もかかる作業を数分で完了すると約束する、最新の人工知能(AI)ツールである。 ChatGPT Proの機能として組み込まれ、訓練された分析者に匹敵する […]