Metaが、AIモデルの学習に海賊版書籍を含むデータを大量に利用していた疑いが、新たに公開された社内メールから浮上した。社員の懸念を示すメールが公開され、著作権侵害訴訟でMetaの立場が悪化する可能性もありそうだ。
社内から「違法」を懸念する声
新たに公開されたメールにより、MetaがAIモデルの学習用データセットとして、海賊版書籍を含む大規模なデータセットをTorrentダウンロードしていた疑いが強まっている。
書籍著作者らが起こした著作権侵害訴訟において、原告側はMetaが「LibGen」などの違法なオンライン図書館から少なくとも81.7テラバイトものデータをTorrentダウンロードしたと主張している。この中には、「Z-Library」と「LibGen」からダウンロードされた35.7テラバイトのデータが含まれるとされる。以前にもMetaがLibGenから80.6テラバイトのデータをTorrentダウンロードしていたことが判明しており、その規模の大きさが改めて浮き彫りになった。原告側は、MetaのTorrentダウンロード行為を「驚くべき規模の違法なTorrentスキーム」と非難し、過去の著作権侵害事例と比較して、その悪質性を強調している。
社員の倫理的懸念と法的リスク認識
公開されたメールからは、Meta社内でもTorrentダウンロードによるデータ収集に対する倫理的な懸念や法的リスクを認識していた様子がうかがえる。
MetaのリサーチエンジニアであるNikolay Bashlykov氏は2023年4月のメッセージで、「会社のラップトップからTorrentダウンロードするのは気が引ける」と述べ、MetaのIPアドレスを使用して海賊版コンテンツをTorrent経由でダウンロードすることへの懸念を示唆した。当初は笑顔の絵文字を付けていたものの、同年9月には法務部門に直接相談し、Torrentの使用がファイルの「Seeding(共有)」、つまりコンテンツの外部への共有を伴うため、「法的に問題がある可能性がある」とより深刻な懸念を表明している。
別の従業員も2022年10月に、「海賊版の素材を使用すべきではないと思います。私はここで一線を引く必要があります。」、「SciHub、ResearchGate、LibGenなどは基本的にPirateBayのようなもので、著作権で保護されたコンテンツを配布しており、著作権を侵害しています。」と述べている。
原告側は、これらのメールがMetaがTorrentダウンロードの違法性を認識していた証拠であると主張している。
「隠蔽工作」の疑いも
Metaは、TorrentダウンロードとSeeding行為を隠蔽しようとしていた疑いも指摘されている。
Metaの研究者であるFrank Zhang氏の内部メッセージによると、Facebookのサーバーからの追跡を避けるため、データセットのダウンロードにFacebookサーバーを使用しない「ステルスモード」での作業が行われていたとされる。また、プロジェクト管理責任者のMichael Clark氏の証言によれば、Seedingの量を最小限に抑えるように設定変更も行われたという。
さらに、原告側はMark Zuckerberg CEOがLibGenの使用に関する決定に関与していたと主張している。Zuckerberg CEOは以前、LibGenの使用について関与を否定していたが、公開されたメッセージは、LibGenの使用決定が「MZ(Zuckerberg CEO)」へのエスカレーション後に発生したことを示唆しているとされる。
著作権侵害訴訟への影響
Metaは、AI学習におけるLibGenの利用は「フェアユース」に該当すると主張しており、訴訟の却下を求める申立てを行っている。しかし、今回公開されたメールは、Meta社内での違法性認識や隠蔽工作の疑いを裏付けるものとして、Metaにとって不利な状況を作り出す可能性がある。
原告側は、新たな事実が明らかになったとして、LibGenのTorrentダウンロードに関与したMeta社員の再証言を求めている。MetaはSeedingによる著作権侵害の直接的な証拠はないと主張しているが、TorrentダウンロードとSeedingに関する証拠開示が進むにつれて、Metaの法的戦略は複雑化する可能性があり、今後の法廷闘争の行方が注目される。
Meta社は、今回の件に関するコメント要請にすぐには応じていない。
Source
コメント