AppleやNVIDIAなどの大手AI企業が、YouTubeクリエイターの許可を得ずに数十万本の動画字幕データをAIトレーニングに利用していたことが明らかになった。既にOpenAIやMicrosoft、GoogleにMetaといったAI開発で先行する企業が辿った道を他の企業も同じように辿っているという点では驚きはないかも知れないが、AIの開発過程における倫理的問題と知的財産権の侵害に関する議論に拍車をかけそうだ。
公開データセットの利用は著作権侵害に当たるのか
非営利団体EleutherAIが作成した「The Pile」と呼ばれる大規模データセットのサブセットである「YouTube Subtitles」に、173,536本のYouTube動画から抽出された字幕データが含まれていることが判明した。このデータセットは、AppleやNVIDIA、Anthropic、Salesforceなどの大手テクノロジー企業によってAIモデルのトレーニングに使用されていた物だ。
対象となった動画の範囲は広く、教育コンテンツからエンターテイメント番組まで多岐にわたる。Khan Academy、MIT、Harvardなどの教育チャンネルや、The Wall Street Journal、NPR、BBCといった報道機関のコンテンツも含まれている。さらに、MrBeast、Jacksepticeye、PewDiePieなどの人気YouTuberの動画も無断で使用されていたことが明らかになった。
この事実は、Proof Newsの調査によって明らかになった。同メディアは、The Pileに含まれるYouTube字幕データを検索できるツールを作成し、クリエイターが自分の作品が使用されているかどうかを確認できるようにしている。
多くのクリエイターは、自分の作品が無断で使用されていたことを知らされておらず、驚きを隠せない様子だ。政治コメンテーターのDavid Pakman氏は、自身のチャンネルから約160本の動画が無断で使用されていたことを知り、次のように述べている:
「誰も私に『これを使わせてください』とは言ってこなかったんです。これは私の生活の糧であり、コンテンツ制作には時間、リソース、お金、スタッフの労力を投入しているんです。やるべき仕事は山ほどあるのに」。
クリエイター所有のストリーミングサービスNebulaのCEO、Dave Wiskus氏も同様の見解を示し、この行為を「窃盗」と呼んだ。彼は、AIがアーティストに取って代わる可能性があることを懸念し、クリエイターの同意なしに作品を使用することは「無礼」だと批判している。
一方、AI企業側の反応は様々だ。AnthropicのスポークスパーソンJennifer Martinez氏は、YouTubeの利用規約は直接的なプラットフォームの使用を対象としており、The Pileデータセットの使用とは区別されると主張している。Salesforceも同様に、The Pileが「公開されているデータセット」であることを強調している。
しかし、YouTubeの利用規約は明確に自動化された手段でのデータ収集を禁止している。Googleのスポークスパーソン、Jack Malon氏は「長年にわたり、悪用や無許可のスクレイピングを防ぐための対策を講じてきた」と述べているが、他社による素材の使用については言及を避けている。
とは言え、AIトレーニングのためのデータスクレイピングに関する法的な状況は、いまだ不明確である。 コードAIツールGithub Copilotに関する最近の判決では、少なくともシステムの出力が元のコンテンツと同一でない限り、著作権侵害はないとされている。
この問題は、AIの開発と知的財産権保護のバランスをどのように取るべきかという、より大きな課題を提起する物と言えるだろう。AI技術の発展は急速に進んでおり、法整備が追いついていないのが現状だ。米国上院では最近、AI濫用を抑制するための「COPIED Act」が提出されたが、こうした法的枠組みの整備が急務となっている。
Source
コメント