テクノロジーと科学の最新の話題を毎日配信中!!

MetaのAIは『ハリー・ポッター』のおよそ半分を「丸暗記」し正確に出力出来ることが判明:Llamaモデル、著作権侵害の決定的証拠か?

Y Kobayashi

2025年6月21日6:39AM

スタンフォード大学、コーネル大学、ウエストバージニア大学の研究者チームが発表した一つの論文が、また大きな議論を呼びそうだ。Metaが開発したオープンソースの大規模言語モデル(LLM)「Llama 3.1 70B」が、世界的なベストセラーであるJ. K. Rowlingの『ハリー・ポッターと賢者の石:原題: Harry Potter and the Philosopher’s Stone』の内容の実に42%を、ほぼ完璧に「記憶」しているというのだ。

この発見は、生成AIの学習プロセスをめぐる著作権論争の力学を根底から覆しかねない。AI企業がこれまで主張してきた「統計的なパターンを学習しているだけ」という説明や、著作物の逐語的な再現は「稀なバグ(fringe behavior)」であるという弁明の信憑性を揺るがすものだからだ。

さらに重要なのは、この研究が「AIモデルの出力」だけでなく、「AIモデルそのもの」が著作権を侵害する複製物であるという、より深刻な法的問題に強力な科学的根拠を与えた点にある。テクノロジーと著作権が衝突する最前線で、今まさにパンドラの箱が開かれようとしているのだ。

スポンサーリンク

衝撃の研究結果:「記憶率42%」が意味するもの

問題の論文「Extracting memorized pieces of (copyrighted) books from open-weight language models」は、AIが訓練データをどの程度「記憶」しているかを、これまでにない精度で明らかにした。

何が明らかになったのか? ― 驚異的な記憶率とその偏り

研究チームは、MetaのLlamaモデル(Llama 1, Llama 3.1)を含む複数のオープンウェイトモデルを対象に、海賊版書籍を集めたデータセットとして知られる「Books3」に含まれる著作物のテキストをどの程度再現できるか実験した。

その結果は、まさに驚くべきものだった。

  • 驚異的な記憶率: MetaのLlama 3.1 70Bモデルは、『ハリー・ポッターと賢者の石』のテキストの42%を「記憶」していると結論づけられた。これは、先行モデルであるLlama 1 65Bの記憶率4.4%から劇的に増加しており、モデルの世代が進むにつれて問題が悪化していることを示唆している。
  • 著しい偏り: この高い記憶率は、すべての書籍に当てはまるわけではない。同じLlama 3.1 70Bモデルでも、作家Richard Kadreyの小説『サンドマン・スリム』の記憶率はわずか0.13%だった。Kadrey氏は、まさにMetaを相手取った集団訴訟の筆頭原告の一人である。
  • 人気作への集中: 『ハリー・ポッター』と同様に、『ホビット』やGeorge Orwellの『1984年』といった他の世界的ベストセラーにおいても、高い記憶率が確認された。

この結果が示すのは、Llama 3.1は特に有名で、インターネット上でも頻繁に引用・議論されるような人気作品を選択的に、そして大量に記憶しているという事実だ。これは、AIの学習が単純な統計処理ではなく、特定の情報を色濃く保持するプロセスであることを物語っている。

AIの「記憶」とは何か?魔法の裏側にあるシンプルな仕組み

まず、AIが文章を「記憶している」とは、どういう状態なのだろうか。

これを理解するために、料理人の比喩が役立つ。優れた料理人は、何百ものレシピを学び、その知識を応用して新しい料理を創造する。これが、AI企業が主張する「AIの学習」のイメージだ。

しかし、今回の研究が示唆するのは、AIが「レシピ本を丸暗記した料理人」に近いということだ。この料理人は、レシピ本そのものを持っていなくても、「鶏もも肉、玉ねぎ、じゃがいも…」と聞けば、レシピ本の続きの材料と手順を正確に暗唱できる。

AIモデルもこれと似ている。モデルは、次に来る単語(正確には「トークン」と呼ばれるテキストの断片)を確率的に予測する。例えば、「ピーナッツバターと」と入力されれば、「ジャム」が来る確率が70%、「砂糖」が来る確率が9%といった具合に、確率のリスト(専門用語でlogitsと呼ばれる)を生成する。通常、この確率は無数の選択肢に分散する。AIはこの確率に従ってランダムに次のトークンを選ぶ。

今回の研究チームは「確率的抽出(probabilistic extraction」という手法でLlama 3.1の挙動を分析した。今回の研究の画期的な点はまさにここにある。

研究チームは、この内部的な確率リストを直接分析した。例えば、「ハリー・ポッターは」というプロンプトを与えた時に、次に来るべき原作のトークンが生成される確率を計算する。これを文章の終わりまで、トークン一つ一つについて繰り返し、全ての確率を掛け合わせることで、「原作通りの文章が生成される総合的な確率」を正確に算出したのだ。

なぜこれが重要なのか。50トークン(おおよそ30〜40語)もの長い文章が、偶然に原作と一字一句同じになる確率は天文学的に低い。もしモデルが、原作通りの文章を高い確率で生成できるのであれば、それは偶然ではなく、モデルの内部パラメータ(重み)に原作の情報が「コピー」として埋め込まれていることの強力な証拠となる。

研究チームは、この確率が50%を超える箇所を「記憶している」と定義した。Llama 3.1が『ハリー・ポッター』の42%でこの条件を満たしたということは、もはや「稀なバグ」とは呼べない、構造的な記憶の存在を浮き彫りにしたのである。

法廷を揺るがす「動かぬ証拠」― AIと著作権の最前線

この研究結果は、現在進行中の数々の著作権訴訟において、原告側にとって極めて強力な武器となる可能性がある。

AIは「学習者」か、それとも「コピー機」か?

AI企業はこれまで、「モデルは人間が本を読んで学ぶように、著作物から統計的なパターンや文体を学習しているだけで、中身を丸暗記しているわけではない」と主張してきた。

しかし、今回の研究は、少なくとも一部の人気作品に関して、その主張が成り立たない可能性を示している。42%もの逐語的な再現能力は、もはや「学習」という言葉の一般的なイメージを超えている。それは、「AIモデルそのものが、著作権侵害にあたる複製物(infringing copy)または二次的著作物(derivative work)である」という、より根源的な議論に火をつけた。

この見解は、単なる原告側の主張ではない。2025年5月、米国著作権局(USCO)は108ページにわたるレポートで、「モデルが訓練データから保護可能な表現を実質的に再現できる場合、そのモデルの内部の重みが侵害コピーと見なされるという『強力な議論』がある」と明記し、この考え方を後押しした。(このレポートの発行直後に局長が解任されたことがまた議論を呼んでいる)

フェアユース論争の行方 ― Google Books判決は通用しない?

AI業界が法的防御の拠り所としてきたのが、「フェアユース(公正利用)」の法理、特に2015年のGoogle Books判決だ。Googleは大量の書籍をスキャンしたが、検索結果としてユーザーに見せるのは短い抜粋(スニペット)のみであり、これが変容的利用(transformative use)と認められた。

しかし、今回のLlamaのケースは状況が全く異なる。モデルが書籍の42%を再現できる能力を持つとなれば、それはもはや「短い抜粋」ではなく、原作と競合しうる実質的なコピーだ。スタンフォード大学法学教授で論文の共著者でもあるMark Lemley氏が指摘するように、Googleはデータベースそのものをユーザーに配布しなかったが、Metaはモデル自体を配布している。この違いは決定的であり、フェアユースの主張を著しく困難にするだろう。

集団訴訟(クラスアクション)の複雑化

一方で、この研究は訴訟の様相を複雑にもする。『ハリー・ポッター』の記憶率は42%だが、『サンドマン・スリム』は0.13%というように、作品によって被害の程度が全く異なる。

この事実は、様々な作家を一つの「クラス(集団)」として認定し、集団訴訟を進める上で障害となる可能性がある。裁判所が「原告たちの状況は一様ではない」と判断すれば、クラス認定は棄却され、作家たちは個別に、そして遥かにコストのかかる訴訟を戦わなければならなくなるかもしれない。これは結果的に、Metaのような巨大企業に有利に働く可能性を秘めている。

スポンサーリンク

なぜMetaは危険な橋を渡ったのか? ― 焦りと戦略の裏側

これほど明白な法的リスクを冒してまで、Metaはなぜこのようなモデルを開発し、リリースしたのだろうか。その背景には、AI覇権をめぐる熾烈な開発競争と、同社の抱える内部事情が見え隠れする。

AI開発競争のプレッシャーと海賊版データの影

法廷文書によれば、MetaはLlamaモデルの訓練のために、「LibGen」のような「影の図書館」から集めた膨大な海賊版書籍を使用したとされている。さらに、この決定はCEOのマーク・ザッカーバーグ氏が個人的に承認したものであったとも報じられている。

データがAIの性能を左右する現代において、Metaは品質や量を確保するために、著作権リスクを承知の上でグレーなデータソースに手を出した可能性が高い。今回の研究で明らかになった人気作への記憶の偏りは、こうした海賊版データセットの使用や、インターネット上のファンサイトなどからの無差別なデータ収集の結果である可能性が考えられる。

オープン戦略の皮肉 ― 透明性が自らの首を絞める?

今回の研究が可能だったのは、皮肉にもMetaがモデルの重みを公開する「オープンウェイト」戦略をとっているからだ。研究者はモデルの内部を直接分析できたため、確率計算という精密な手法を用いることができた。

対照的に、OpenAIのGPT-4やGoogleのGeminiのような「クローズド」モデルは、内部の仕組みがブラックボックス化されており、同様の検証は極めて困難だ。彼らがもし内部で同様の「記憶」をしていたとしても、外部からそれを証明することは難しい。さらに、彼らは出力段階でフィルターをかけ、著作権侵害コンテンツが表に出ないように制御することもできる。

結果として、モデルを公開し透明性を高めようとするMetaの戦略が、かえって自らを法的に不利な立場に追い込むという、AI業界の深刻なジレンマが浮き彫りになった。これは、企業が著作権リスクを恐れてモデルを非公開にするインセンティブを生み、AI研究全体の透明性を損なうことにも繋がりかねない。

テクノロジー業界に突きつけられた「パンドラの箱」

Llama 3.1が『ハリー・ポッター』の42%を記憶していたという事実は、単なる技術的な興味を超え、生成AIという技術が内包する根本的な法的・倫理的リスクを白日の下に晒した。

これは、AIがもはや単なる「ツール」ではなく、文化的な創造物そのものを吸収し、再現し、場合によってはその価値を毀損しかねない「主体」となりつつあることを示している。AI企業は今後、トレーニングデータの入手方法、権利処理のあり方、そして「学習」と「記憶」の境界線をどこに引くのかという根本的な問いに、真剣に向き合わざるを得ない。

この問題の解決は、AI業界の未来だけでなく、クリエイターの権利がどのように守られ、我々の文化がどのように育まれていくかを決定づける。今、開かれたパンドラの箱から飛び出した問いに対し、社会全体で賢明な答えを見つけ出すことが求められている。


論文

参考文献

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする