テクノロジー
AIは嘘を見破るか?人狼ゲームでGPT-5が驚異の勝率97%を記録
フランスのスタートアップFoaster.aiが開発したAI評価ベンチマーク「Werewolf」で衝撃的な結果が報告された。OpenAIの最先端モデルGPT-5が、210回に及ぶゲームで96.7%という驚異的な勝率を叩き出 […]
Foaster.aiはフランスに拠点を置くAIエージェント開発企業です。同社は、従来の論理的知性や記憶力を測る指標では不十分であったAIの「社会的知性」を定量化することを目指しています。その一環として、人狼ゲームをベースにしたAI評価ベンチマーク「Werewolf」を開発・公開しました。このベンチマークは、AIが他者を操作する能力や、逆に操作に抵抗する能力をEloレーティングで算出するもので、AIモデル間の高度な駆け引きや戦略的思考の差異を明らかにしています。