AI評価の「多数決」はもう限界?Googleが指摘するベンチマークの致命的な欠陥
現在のAIモデルの性能評価システムは、長らく一つの絶対的な前提の上で運用されてきた。それは、あらゆる入力データに対して何らかの「単一の正解(Ground truth)」が存在するという仮説である。多くの機械学習の研究開発 […]
Enter で検索 · Esc で閉じる
AD
現在のAIモデルの性能評価システムは、長らく一つの絶対的な前提の上で運用されてきた。それは、あらゆる入力データに対して何らかの「単一の正解(Ground truth)」が存在するという仮説である。多くの機械学習の研究開発 […]
Intelが「Arrow Lake Refresh」アーキテクチャを採用したCore Ultra 200S Plusシリーズ(Core Ultra 9 285K、Ultra 7 270K Plus、Ultra 5 250 […]
古代ローマの墓石に刻まれたパルミラ文字をどう翻訳するか? ハチドリの特定の種子骨は、何対の腱を支えているのか? チベリア式発音の伝統に関する最新の学術研究に基づいて、聖書ヘブライ語の閉音節を特定できるか? これらは、今週 […]
Googleが発表した最新AIモデル「Gemini 3」シリーズ。その性能について、これまでの常識を覆すデータが公開された。オックスフォード大学の研究者らによって設立された評価機関Prolificによる「HUMAINEベ […]
Googleの次期フラッグシップ「Pixel 10 Pro XL」のものとされるGeekbench 6のスコアが、発表を目前にしてリークされた。示された数値は、シングルコアで約21%、マルチコアに至っては46%という、前 […]
2025年10月に迫るWindows 10のサポート終了を前に、Microsoftはユーザーに対し、Windows 11への移行を強力に推進している。その一環として同社が打ち出した「Windows 11 PCはWindo […]
PCベンチマークで知られるPassMarkのデータによれば、CPU性能が20年ぶりに初の低下を記録したとのことだ。2025年初頭のデータで明らかになったこの現象は、CPUの性能向上トレンドに変化が生じている可能性を示唆し […]
Samsungの最新フラグシップスマートフォン「Galaxy S25 Ultra」が、競合するAppleのiPhone 16 Pro Maxに対して、複数の重要なベンチマークテストで優位性を示した。特に3DMark St […]
Appleが新型iPhone 16シリーズを発表してから24時間も経たないうちに、最新のA18チップを搭載したモデルのGeekbenchスコアがリークされたようだ。実際にAppleが主張するように大きな性能向上が果たされ […]
Googleの最新フラッグシップスマートフォン Pixel 9 Pro XL に搭載された新型プロセッサ「Tensor G4」が、予想外の深刻な性能低下を示す結果が明らかになった。ストレステストにおいて、Tensor G […]
コンピューターの処理性能を測定する定番ベンチマークソフト「Geekbench」の開発元Primate Labsが、AI処理能力の測定に特化した新たなベンチマークテスト「Geekbench AI」を正式リリースした。このツ […]
Intel最新のLunar Lake CPUである Core Ultra 9 288V のベンチマークテスト結果がリークされた。Geekbenchで公開されたこの結果は、低消費電力設計ながら高いシングルコアパフォーマンス […]
AD