OpenAI著作権訴訟にブリタニカ参戦、約10万件の無断学習を告発

Encyclopedia Britannicaとその傘下Merriam-Websterが2026年3月16日、OpenAIをニューヨーク・マンハッタン連邦地方裁判所に提訴した。訴状によれば、OpenAIはブリタニカの百科事典記事・辞書定義を含む約10万件のコンテンツを無断でLLM（大規模言語モデル）の学習データとして使用した。GPT-4はその内容を「記憶」しており、要求に応じてほぼ逐語的なコピーを出力できる状態にあると訴状は主張する。

著作権侵害のほか、ChatGPTがハルシネーション（AIが事実と異なる情報を生成する現象）の際にブリタニカを情報源として誤引用する行為をランハム法（商標法）違反として問題視しており、250年以上かけて積み上げた「信頼性ブランド」への侵害という異例の論点が訴訟の軸になっている。損害賠償の金額は特定せず、差し止め命令も合わせて求めている。

訴状の核心：「記憶した著作物を逐語的に再現できる」

訴状が著作権侵害の根拠として押し出しているのは、GPT-4がブリタニカの著作物を「記憶」し、求めに応じて「相当部分をほぼ逐語的に出力できる」という具体的な事実だ。これは「類似した文章が出力された」という程度の話ではなく、モデル自体が著作物の再現装置として機能しているという主張である。OpenAIが「公開データを学習しており、フェアユース（著作権法上の公正利用の法理）の原則に基づく」と声明で反論しても、逐語的な再現という事実は正面から打ち消しにくい。

こうした「LLMによる著作物の記憶」の実態については、スタンフォード大学とイェール大学の研究者が実施した実験が参考になる。研究チームは主要なLLMに対して誘導プロンプトを用いることで、著作権保護された書籍のテキストを最大96%の精度で再現することに成功した。ハリー・ポッターシリーズのように学習データに広く含まれていた作品では、ほぼ原文通りのテキストが出力された。この研究は「モデルの重み（パラメータ）に著作物が事実上埋め込まれているか」という問いに実証的な裏付けを与えており、ブリタニカの訴状が主張する「記憶」の概念に現実的な根拠を提供している。

訴状がランハム法違反を訴因に加えている点もこの訴訟の特徴だ。ChatGPTはハルシネーションの際、実在しないブリタニカの記述を引用として出力することがある。ユーザーにはChatGPTが出力した誤情報が「ブリタニカの確認済み情報」に見えかねない。ブリタニカは1768年の創刊以来、厳密な編集プロセスによって「正確で信頼できる知識」というブランドを構築してきた。それが根拠もなく誤情報の出所として使われることは、金銭的損害とは別次元の問題として受け止められている。

学習データだけでなくRAGワークフローも訴因に

今回の訴状が以前のAI著作権訴訟と一線を画すのは、訴因が学習データの範囲にとどまっていない点だ。LLMがユーザーの質問に答える際にWebや外部データベースをリアルタイムで検索して最新情報を回答に組み込む仕組みであるRAG（Retrieval-Augmented Generation、検索拡張生成）によるコンテンツ参照もまた著作権侵害として問題にされている。ChatGPTがブリタニカの記事を検索・引用する場合、その内容が許諾なく複製・使用されているとブリタニカは主張する。訴状によれば、この推論時のリアルタイム参照がブリタニカの著作権をさらに侵害しているという。

この論点はAI著作権論争の射程を大きく広げる可能性がある。これまでの多くの訴訟は「過去の学習データとして著作物を使用したことの是非」に集中していた。ブリタニカの訴訟はそこに「推論時のリアルタイム参照」を加えており、仮にこの主張が認められれば、RAGを実装するLLMサービスはウェブ上のあらゆる著作権保護コンテンツへのアクセスについて権利処理が求められる局面が生じうる。OpenAIが主張する「公開データへのフェアユース」という論理が推論時の参照にまで適用されるかどうかは、現行の著作権法では答えが出ていない問いだ。

「AIモデルは著作物を記憶するか」——欧州で割れる司法判断

ブリタニカの訴状が問う「モデルの記憶」の問題については、欧州の裁判所でも真逆の司法判断が出ており、世界規模で法的基準が定まっていない状況が続いている。ドイツの音楽著作権管理団体GEMAがOpenAIを訴えた事件では、ミュンヘン地方裁判所がGPT-4とGPT-4oのモデル重みに歌詞が「埋め込まれている」と認定した。モデル重みとは、学習によってAIが獲得する数値パラメータ群のことだ。同裁判所は、そのパラメータから著作物を再現できる状態にある以上、差し止め請求や損害賠償請求を正当化する著作権上の複製行為に該当すると判断した。

英国高等裁判所はGetty Images対Stability AI訴訟で正反対の結論を出した。AIモデルは著作物の「侵害コピー」には該当せず、モデル重みは実際の著作物ではなく「学習したパターン」を格納するものに過ぎないというのが同裁判所の見解だ。Getty Imagesの写真がモデルのパラメータとして保存されているわけではないと判断した。

米国でも基準は定まっていない。2025年にAnthropicが関与したクラスアクション（集団訴訟）では、連邦判事William Alsup氏が「トレーニングへの使用は変換的フェアユースにあたりうる」と認めながらも、書籍の不法ダウンロードという取得方法を違法と判断し、15億ドル規模の和解が成立した。学習行為の「変換性」と「取得方法の合法性」を切り分けたこの判断は、原告・被告双方が都合よく援用できる、法的に両刃の先例となった。

ブリタニカ訴訟が問う情報エコシステムの持続可能性

訴状の言葉を使えば、ChatGPTは「ユーザーのクエリへの回答を生成することで、ブリタニカのコンテンツを代替し直接競合している」。この表現が示す問題の本質は、AI企業が「無断で学んだ知識」を使って、学習源となった情報産業のビジネスモデルを侵食するという循環構造だ。

ブリタニカのビジネスモデルは、厳密な編集プロセスを経たコンテンツをウェブで提供し、広告収益や購読料を得ることで成立する。ChatGPTがブリタニカの内容を要約・再現して無料で提供すれば、ユーザーがブリタニカのサイトを訪れる動機は薄れる。収益が減れば、コンテンツの維持・更新も困難になる。信頼性の高い情報を産出してきた組織が経済的に成立しなくなれば、将来のLLMが参照できる質の高いデータソースも長期的には縮小していく。訴状が「cannibalize（食い潰す）」という動詞を使ったのは偶然ではない。

この構造はブリタニカだけの問題ではない。New York Times、Ziff Davis（Mashable・CNET・IGNなどを傘下に持つ）、カナダ放送協会（CBC）を含む多数のメディアがすでにOpenAIを提訴しており、Perplexity AIに対してもブリタニカは2025年9月に同様の訴訟を起こして審理が続いている。ただ、こうした一連の訴訟の中でブリタニカ案件が独自の位置を占めるのは、百科事典という「信頼性の集積体」への侵害という論点だ。ニュース報道の鮮度や速報性とは違い、百科事典の価値は長年かけて検証・蓄積された知識の精度にある。その精度そのものをAIが学習し、代替品として機能し始めた時、百科事典という形態が経済的に存続できるかどうかは、この訴訟の判決がひとつの分岐点となる。

Sources

Reuters: Encyclopedia Britannica sues OpenAI over AI training

訴状の核心：「記憶した著作物を逐語的に再現できる」

学習データだけでなくRAGワークフローも訴因に

「AIモデルは著作物を記憶するか」——欧州で割れる司法判断

ブリタニカ訴訟が問う情報エコシステムの持続可能性

この記事はいかがでしたか？

関連記事

カナダ主要メディア5社、OpenAIを著作権侵害で提訴 -賠償金は数十億ドル規模か

OpenAI対The Intercept訴訟、DMCAに基づく著作権管理情報削除の訴えが前進