テクノロジーと科学の最新の話題を毎日配信中!!

Llama 4 ベンチマークに不正疑惑:性能を疑う声とMetaの弁明

Y Kobayashi

2025年4月8日

Metaが週末に突如発表した最新AIモデル「Llama 4」ファミリーが、AIコミュニティに波紋を広げている。特に中核モデルである「Llama 4 Maverick」と「Llama 4 Scout」について、発表された性能と実際のユーザー体験の乖離、そしてベンチマークスコアを意図的に操作したのではないかという疑惑が浮上。Metaはこれを強く否定しているが、独立した評価では特に長文処理能力に大きな課題があることが判明した。一連の騒動はAI開発における性能評価のあり方や、企業の透明性について改めて問題を提起している。

スポンサーリンク

鳴り物入りの登場とコミュニティの冷めた反応

Metaは、Llama 4 ScoutとLlama 4 Maverickを「ネイティブマルチモーダル」AIとして発表した。テキストと画像を根本から扱える「Eearly Fusion」技術を採用し、OpenAIのGPT-4oやGoogleのGemini 2.5に対抗しうる性能を持つと主張。特にScoutは1000万トークンという巨大なコンテキストウィンドウ(一度に処理できる情報量)を持つとされた。

しかし、AI研究者や開発者コミュニティからの初期反応は、期待外れ、あるいは否定的なものが目立つ。独立系AI研究者のSimon Willison氏はArs Technicaに対し、「Llama 4を取り巻く雰囲気は、今のところ明らかに平凡だ」と語っている。

MetaはLlamaシリーズを「オープンソース」として位置づけているが、ライセンス上の制限から、実態は「オープンウェイト」(モデルの重みパラメータが公開されている状態)と呼ぶ方が正確である点は、以前のリリースから指摘されている。

Llama 4の技術的特徴:MoEとマルチモーダル

Llama 4モデル群は、巨大なAIモデルの運用限界を回避する手法の一つである「混合エキスパート(Mixture-of-Experts, MoE)」アーキテクチャを採用している。これは、特定のタスクに関連する専門家(エキスパートと呼ばれるニューラルネットワークの一部)のみを活性化させることで、計算負荷を抑える仕組みである。

  • Llama 4 Maverick: 総パラメータ数4000億のうち、常時アクティブなのは128のエキスパートのうち1つ、170億パラメータ。
  • Llama 4 Scout: 総パラメータ数1090億のうち、常時アクティブなのは16のエキスパートのうち1つ、170億パラメータ。

また、テキスト、画像、動画フレームを同時に学習させることで、「広範な視覚的理解」を持つネイティブマルチモーダル性能を実現したとしている。これらのモデルは、まだ開発中であるさらに巨大な「教師」モデル、Llama 4 Behemoth(総パラメータ数2兆)の支援を受けて訓練された。

期待と現実のギャップ:性能への疑問符

だが、Metaが強調した性能、特にLlama 4 Scoutの1000万トークンという超巨大なコンテキストウィンドウは、すぐに現実の壁にぶつかった。

コンテキストウィンドウの限界

開発者たちは、主張されたコンテキストウィンドウのごく一部を利用しようとしても、メモリ制限のために困難であることに気づいた。Willison氏の報告によれば、GroqやFireworksといったサードパーティのアクセス提供サービスでは、Scoutのコンテキストはわずか12万8000トークンに制限されていたという。Together AIでも32万8000トークンに留まる。

Meta自身のサンプルノートブック(”build_with_llama_4″)でさえ、140万トークンのコンテキストを実行するには8基のNVIDIA H100 GPUが必要であると記載されており、巨大コンテキストの利用には莫大なリソースが必要であることが示唆されている。

Willison氏自身がOpenRouterサービス経由でLlama 4 Scoutに約2万トークンのオンライン議論の要約を依頼したところ、「完全にジャンクな出力」となり、反復ループに陥って使い物にならなかったと報告している。AI研究者のAndriy Burkov氏も、「宣言された10Mコンテキストは仮想的なものだ。モデルは256kトークンより長いプロンプトで訓練されていないため、それ以上を送るとほとんどの場合、低品質な出力が得られるだろう」と指摘している

ベンチマークスコアの謎:LMArenaの結果は別物?

Metaは、Maverickが様々な技術ベンチマークでGPT-4oやGoogle Gemini 2.0を上回ると主張している。しかし、これらのベンチマークが日常的なユーザー体験を反映するとは限らない点は留意が必要だ。

注目されたのは、人気のチャットボット評価サイト「Chatbot Arena (LMArena)」でLlama 4のあるバージョンが一時2位にランクインしたことだ。しかし、これには注釈が付く。Meta自身が発表時に「LMArenaでELOスコア1417を記録した実験的なチャットバージョン」と言及しており、ダウンロード用に公開されたMaverickモデルとは異なるものであることを示唆している。

元Meta研究者で現AI2(Allen Institute for Artificial Intelligence)のNathan Lambert氏は、自身のブログでこれを「ずる賢い(Sneaky)」やり方だと批判。「マーケティングの主要な推進力を作るために使用したモデルを公開しないのは、Metaのコミュニティに対する大きな侮辱だ」と述べ、Chatbot Arenaでのスコアを最大化するために、数学やコーディングといった重要なスキルでの性能を犠牲にした会話用に最適化されたモデルではないかと疑義を呈している。

さらに、LMArenaの「スタイルコントロール」機能(応答の長さやフォーマットといった表現スタイルと内容の質を分離して評価しようとする機能)を有効にすると、Llama 4の順位が2位から5位に下がることを指摘。これも、特定のベンチマーク向けに最適化された可能性を示唆している。

特定タスクでの性能不足

一部のユーザーからは、特にコーディングタスクにおける性能の低さが報告されている。

  • あるユーザー(@cto_junior)は、225のコーディングタスクを実行するベンチマーク「aider polyglot」で、Llama 4 Maverickのスコアが16%と、同等サイズの古いモデル(DeepSeek V3やClaude 3.7 Sonnet)を大きく下回ることを示した。
  • Redditユーザー(Dr_Karminski)も、七角形内でボールが跳ね回るシミュレーションのようなコーディングタスクで、DeepSeek V3と比較してLlama 4の性能が劣ることを実演し、「信じられないほどがっかりした」と述べている

長文脈理解の課題

独立系評価サイト「Fiction.live」による、多層的な物語を通じて複雑な長文脈理解を評価するテストでは、Llama 4は特に厳しい結果となった。このテストは、単なる検索能力ではなく、時間的な変化の追跡、既知情報に基づく論理的予測、読者の知識と登場人物の知識の区別といった、より実世界に近い応用能力を測ることを目的としている。

  • 12万トークンの文脈において、Gemini 2.5 Proが90.6%の精度を維持するのに対し、Maverickは28.1%、Scoutに至っては15.6%という低い精度しか達成できなかった。

これは、Scoutが1000万トークン、Maverickが100万トークンのコンテキストウィンドウを持つというMetaの主張とは大きく食い違う結果である。研究では、巨大なコンテキストウィンドウが期待されるほどの利益をもたらさず、モデルが利用可能な情報すべてを均等に評価するのに苦労することが示されつつある。多くの場合、128Kまでのより小さなコンテキストで作業する方が効果的であり、長大な文書は一度に処理するよりも章ごとに分割する方が良い結果をもたらすことが一般的だ。

スポンサーリンク

「ベンチマーク不正操作」疑惑の浮上とMetaの反論

こうした性能への疑問に加え、Metaがベンチマークスコアを人為的に吊り上げるために不正な手段を用いたのではないかという疑惑が、コミュニティ内で急速に広まっている。

疑惑の発端:内部告発?

発端は、北米の中国語コミュニティフォーラム「1point3acres」に投稿された、Metaの生成AI部門の研究者を名乗る人物による書き込みとされるものだった。この人物は(翻訳によれば)、「内部モデルの性能が繰り返し訓練してもオープンソースのSOTA(最高水準)に達せず、大きく遅れをとっていた。経営陣は、複数の指標で見栄えの良い結果を出すために、様々なベンチマークのテストセットをポストトレーニングプロセスに混ぜ込むことを提案した」と主張。これが受け入れがたいとして辞職を申し出、Llama 4のテクニカルレポートから自分の名前を削除するよう要請したと述べている。この投稿の信憑性については懐疑的な見方もあるが、XやRedditで瞬く間に拡散された。

AIモデルの開発において、「テストセット」は訓練後にモデルの性能を評価するために用いられるデータ群である。もしモデルを訓練する段階でこのテストセットのデータを使用してしまうと、その特定のテストでのスコアは見かけ上向上するが、未知のデータに対する真の汎化性能を示すものではなくなり、誤解を招く結果となる。

Meta幹部による全面否定

この疑惑に対し、Metaの生成AI担当VPであるAhmad Al-Dahle氏はX上で、「テストセットで訓練したという主張は、単に事実ではない。我々は決してそのようなことはしない」と強く否定した。

同氏は、ユーザーから報告されている「品質のばらつき」については、モデルを準備でき次第すぐにリリースしたため、各プラットフォームでの実装が最適化されるまでに数日かかると説明。「我々の最善の理解では、人々が見ている品質のばらつきは、実装を安定させる必要があるためだ」と述べ、バグ修正とパートナーへの導入支援を継続していくとした。

しかし、この説明に対しても、なぜ今回のLlama 4リリースが過去のリリースと比較して特に問題が多いのか、より詳細な技術文書の公開を求める声など、コミュニティからの疑問や批判はやんでいない。

今後の展望とAI開発への示唆

Llama 4を巡る一連の騒動は、いくつかの重要な論点を浮き彫りにしている。

第一に、AIモデルの性能評価、特に標準的なベンチマークの限界である。LMArenaでの順位操作疑惑や、特定のベンチマークに最適化されすぎて実用的なタスク(特に長文脈理解やコーディング)で性能が低下する可能性は、ベンチマークスコアだけではモデルの真の実力を測れないことを示している。

第二に、AI開発におけるスケーリングの限界の可能性である。研究者のAndriy Burkov氏は、GPT-4.5とLlama 4の期待外れのリリースは、単にモデルサイズを大きくするだけでは、特に推論能力を向上させる強化学習などの新しい技術を取り入れなければ、もはや利益をもたらさない可能性を示していると指摘する。

第三に、Metaの「オープン」戦略とコミュニティとの関係である。「オープンウェイト」モデルをリリースし、コミュニティからのフィードバックを得て改善していくというアプローチ自体は評価される点もあるが、今回のような性能やベンチマークに関する透明性の欠如や説明不足は、コミュニティの信頼を損なう可能性がある。

Simon Willison氏は、Llama 3のように様々なサイズのLlama 4モデルファミリーが登場することに期待を寄せ、「特に、私の携帯電話で動作する改良された約3B(30億パラメータ)モデルが登場するかどうか楽しみにしている」と述べている。

奇しくも、Llama 4リリースの直前には、MetaのAI研究部門(FAIR)でVPを務めていたJoelle Pineau氏が退社を発表している(ただし、同氏はこのリリースを肯定的に紹介しており、直接的な因果関係は不明)。

4月29日に予定されている初のLlama開発者向けイベント「Meta LlamaCon」では、今回の騒動についても議論が交わされる可能性がある。Metaがコミュニティの懸念にどう応え、Llama 4ファミリーの真価を証明していくのか、今後の動向が注目される。


Sources

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする