Meta(旧Facebook)がAIモデルの開発において、海賊版書籍のデータベース「LibGen」を意図的に使用していた事実が、カリフォルニア連邦地裁に提出された訴訟文書で明らかになった。CEOのMark Zuckerberg氏が直接承認した決定であり、社内からの警告を無視して進められていたことが示されている。
経営陣主導で進められた著作権侵害と隠蔽工作
Meta内部の通信記録から浮かび上がってきたのは、トップダウンで進められた組織的な著作権侵害の実態だ。同社のAI開発チームは当初から、LibGenが「明らかに海賊版である」と認識していたにもかかわらず、この問題をMark Zuckerberg CEOまで上申。文書によれば、「MZ(Mark Zuckerberg)への報告後」にLibGenの使用が正式に承認されたという。
開発チームからは、海賊版データセットの使用について深刻な懸念が示されていた。特に、「規制当局との交渉における立場を弱める可能性がある」との警告は、この決定がもたらすリスクを明確に指摘していた。あるエンジニアは社内コミュニケーションで「企業所有のラップトップから著作権侵害コンテンツをダウンロードすることが正しいとは思えない」と述べ、その不安を表明していたことも明らかになっている。
さらに深刻なのは、Metaが著作権情報を組織的に削除していた事実だ。Llama研究チームに所属するエンジニアのNikolay Bashlykov氏は、LibGenから取得した電子書籍から著作権関連情報を削除する専用スクリプトを開発。「copyright」「acknowledgments」といった文言を自動的に除去するシステムを構築した。これに加えて、学術論文からの著作権表示の削除、訓練データのソースメタデータの抹消も行われていた。
Meta幹部のAhmad Al-Dahle氏は、エンジニアたちの法的懸念を一蹴し、LibGenからのデータ取得を承認。さらに同社は、著作権で保護された作品の拡散を最小限に抑えるため、トレントネットワークでの「シード」(アップロード)量を意図的に制限するよう指示していた。原告側は、これらの一連の行為がMetaによる計画的な著作権侵害の隠蔽工作であったと主張している。
裁判所に提出された文書では、Metaが正規のライセンス取得や書籍の購入という合法的な手段を意図的に回避し、違法なトレントネットワークに参加することを選択したと指摘。この判断は、単なるコスト削減策を超えて、意図的な著作権侵害であることを示す証拠だとされている。
著名作家らによる訴訟の展開
訴訟を起こしているのは、作家のTa-Nehisi Coates氏、コメディアンのSarah Silverman氏らで、2023年にMetaを著作権侵害で提訴。彼らは、自身の著作物が同社のチャットボット用AI言語モデル「Llama」の訓練に無断で使用されたと主張している。
LibGenは、数百万冊の小説、ノンフィクション書籍、科学雑誌記事を含む「シャドーライブラリー」として知られ、2023年にはニューヨーク連邦地裁から3000万ドル(約24億円)の損害賠償支払いを命じられている。
AI開発をめぐる著作権問題の深刻化
この問題は、ChatGPTなどの生成AI開発において重要な課題となっている著作権問題の象徴的な事例となっている。クリエイターや出版社は、許可なく作品が使用されることで、生計や事業モデルが脅かされていると警告を発している。
Metaを含む多くのAI企業は、著作物の使用が「フェアユース(公正使用)」の範囲内であると主張しているが、今回の文書で明らかになった意図的な著作権情報の削除は、この主張を弱める可能性がある。
Vince Chhabria判事は2023年、AIモデルが生成したテキストが著作権を侵害しているとの主張は棄却したものの、原告側に訴状の修正を認めている。最新の証拠開示を受け、原告側は著作権管理情報(CMI)に関する主張の再検討とコンピュータ不正利用の新たな申し立ての追加を求めている。
Sources
コメント