テクノロジー
AIは嘘を見破るか?人狼ゲームでGPT-5が驚異の勝率97%を記録
フランスのスタートアップFoaster.aiが開発したAI評価ベンチマーク「Werewolf」で衝撃的な結果が報告された。OpenAIの最先端モデルGPT-5が、210回に及ぶゲームで96.7%という驚異的な勝率を叩き出 […]
別名: イロレーティング, Elo rating
Eloレーティングは、チェスや将棋、オンラインゲームなどの対戦型競技において、プレイヤーの相対的な実力を数値化するための統計的指標です。物理学者アーパド・イロによって考案されました。対戦結果に応じて数値が変動し、強い相手に勝てば大きく上昇し、弱い相手に負ければ大きく下落する仕組みです。2人のプレイヤーのレーティング差から、理論上の勝率を予測できることが特徴です。AIの評価においても、複数のモデルを直接対決させた際の実力差を定量化するために広く用いられています。
フランスのスタートアップFoaster.aiが開発したAI評価ベンチマーク「Werewolf」で衝撃的な結果が報告された。OpenAIの最先端モデルGPT-5が、210回に及ぶゲームで96.7%という驚異的な勝率を叩き出 […]
GoogleがAIベンチマークの再定義に乗り出した。従来の静的テストに代わり、動的かつ対話的なゲーム環境でAIの「思考」を可視化する試みとして、同社は新プラットフォーム「Kaggle Game Arena」を正式発表。初 […]
AI画像生成プラットフォームIdeogramが3月26日、新たなフラッグシップモデル「Ideogram 3.0」を発表した。リアリズムの向上、革新的なスタイル参照機能、高精度テキストレンダリングを特徴とする同モデルは、す […]