テクノロジー
AIは嘘を見破るか?人狼ゲームでGPT-5が驚異の勝率97%を記録
フランスのスタートアップFoaster.aiが開発したAI評価ベンチマーク「Werewolf」で衝撃的な結果が報告された。OpenAIの最先端モデルGPT-5が、210回に及ぶゲームで96.7%という驚異的な勝率を叩き出 […]
別名: Kimi-K2
Kimi-K2-Instructは、中国のAIスタートアップであるMoonshot AI(月之暗面)が開発した大規模言語モデルです。人狼ゲームを用いた評価では、他のモデルとは異なる「大胆不敵なリスクテイカー」という独自のプレイスタイルを示しました。感情的な賭けに出たり、味方を犠牲にして信頼を得るような高度な陽動戦術を自発的に実行するなど、単なる論理処理を超えた創発的な戦略行動が確認されています。
フランスのスタートアップFoaster.aiが開発したAI評価ベンチマーク「Werewolf」で衝撃的な結果が報告された。OpenAIの最先端モデルGPT-5が、210回に及ぶゲームで96.7%という驚異的な勝率を叩き出 […]
GoogleがAIベンチマークの再定義に乗り出した。従来の静的テストに代わり、動的かつ対話的なゲーム環境でAIの「思考」を可視化する試みとして、同社は新プラットフォーム「Kaggle Game Arena」を正式発表。初 […]