NVIDIAが大規模な動画スクレイピングを行い、AIモデルのトレーニングに利用していたことが明らかになった。同社は1日あたり「人間の一生分」に相当する動画データを収集し、自社製品の開発に活用していたとされるが、この行為は著作権法の観点から、各所で議論を呼んでいる行為と同様の物であり、非難を呼びかねない行いである。
NVIDIAの上層部は著作権違反の懸念がある中で“包括的な承認”を与えた
NVIDIAは、主にAIチップのデータセンターを供給していることで知られており、これによって世界で最も価値のある企業のひとつとなった。 だが、NVIDIAもまた、他の企業が構築できる基礎的なAIモデルを作成することで、データ処理分野に参入したいと考えているようだ。 競争の激しい現在のAI市場で優位に立つために、NVIDIAは膨大なオンライン・ビデオ・データを使ってシステムを訓練することを目標としていると言われている。
NVIDIAの取り組みは、「Cosmos」というコードネームで2024年2月に開始された。404 Mediaの報道によると、同社はYouTube、Netflix、その他のオンラインプラットフォームから大量の動画をダウンロードし、Omniverse 3D世界生成ツール、自動運転車システム、Digital Humans アバター生成器など、さまざまな商用AI製品のトレーニングデータとして使用していた。
収集されたデータの規模は想像を超えるものだった。NVIDIAは、Amazon Web Servicesの20〜30台の仮想マシンを駆使し、1日あたり80年分に相当する動画をダウンロードしていたという。実際、同社の目標は、1日あたり「人間の一生分の視覚体験に値する」トレーニングデータを生成することだった。結果として、3月には10万本の動画をダウンロードし、5月までには3,850万のURLを収集するに至っている。さらに驚くべきことに、収集されたURLの約40%が映画関連の動画だったという。
NVIDIAの研究部門副社長であるMing-Yu Liu氏は、社内の懸念に対して「これは経営陣の決定です。すべてのデータに対して包括的な承認を得ています」と回答し、プロジェクトの正当性を主張しているが、この発言は法的・倫理的な問題をめぐる議論をさらに加熱させかねない物だ。
データ収集の手法も議論の的となっている。NVIDIAは、YouTube-8Mデータセットの使用にあたり、Googleのクラウドサービスを利用したが、これは彼ら自身の行為を正当化するための物と見られている。実際にNVIDIAのある人物は次のように述べている:「私たちはGoogle/YouTubeからダウンロードについて、Google Cloudを使ってダウンロードすると言うニンジンをぶら下げました。結局、通常、800万本の動画があれば、彼らは多くの広告インプレッションを得ることになるが、トレーニングのためにダウンロードするとその収益を失うことになるので、彼らはそこからいくらかの利益を得るべきだ」。
また、YouTubeからの検出を回避するために、NVIDIAはアクセス禁止を避けるためにIPアドレスをローテーションさせる仮想マシン(VM)を使用してコンテンツをダウンロードしていたと報告されている。 サードパーティのIPアドレスをローテーションするツールを使うようにという従業員の提案に対して、別のNVIDIAの従業員は、「我々は[Amazon Web Services]を利用しており、[仮想マシン]インスタンスを再起動すると新しいパブリックIPが得られる」と書いたという。
さらに、NVIDIAは学術目的や非商用目的専用とされているデータセットも使用していた。例えば、HD-VG-130Mという1億3,000万本のYouTube動画を含むデータセットは、そのライセンスで学術利用のみが許可されていたにもかかわらず、NVIDIAはこれを商用目的で使用していたとされる。
こうした行いに対し、404 Mediaが問い合わせたところ、YouTubeとNetflixの両社は、AIモデルのトレーニングのために自社のプラットフォーム上のコンテンツをスクレイピングすることは、明らかに利用規約に違反していると述べているようだ。
一方、NVIDIAのJensen Huang CEOは、スタッフの進歩に満足しているようだ。 彼は「素晴らしいアップデートだ。 多くの企業はビデオFM(基盤モデル)を構築しなければならない。 我々は完全に加速されたパイプラインを提供することができる」と、述べたとされている。
この問題は、AIの発展と著作権保護のバランスをどう取るべきかという大きな課題を提起している。現在、米国議会ではAI基盤モデル透明性法や生成AI著作権開示法など、AIトレーニングに関する法案が検討されているが、明確な法的枠組みはまだ確立されていない。
一方、NVIDIAはこの件について、「著作権法の文言と精神の両方に完全に準拠している」と主張している。しかし、この主張の妥当性については疑問の声も上がっている。
AIトレーニングのためのデータスクレイピングをめぐる問題は、NVIDIAに限ったことではない。OpenAI、Stability AI、Midjourney、DeviantArt、Runwayなど、他のAI企業も同様の問題で訴訟に直面している。これらの企業は、データスクレイピングが著作権法の「フェアユース」に該当すると主張しているが、この解釈の妥当性については激しい議論が続いている。
今回の事態は、AI開発競争の激化を背景に、企業各社がオンラインデータを最大限活用しようと急いでいる現状が垣間見える物である。実際に彼らは法的なグレーゾーンが解消される前に、できるだけ多くのデータを収集し、競争優位性を確保しようとする動きを加速させているようだ。
この問題の解決には、法整備や業界の自主規制、そして技術と倫理の両面からのアプローチが必要となるだろう。AI技術の発展と創作者の権利保護、さらにはプライバシーの問題など、多角的な視点からの議論が求められている。NVIDIAの事例は、急速に進化するAI技術と既存の法体系との間に生じている摩擦を象徴する出来事として、今後も注目を集めることになりそうだ。
Sources
コメント