AI企業による開発競争は、人材獲得等が大きく報じられているが、それとはまた別の側面として、高品質なデータを求める各企業らが、半ば法的にスレスレか、場合によってはそれを侵害することも厭わない過激な行動に出ていることがNew York Times紙によって報じられている。
NYTによると、OpenAI、Google、Metaの3社は、競合他社がガイドラインを無視することを仮定し、意図的に著作権を侵害する事を議論し、これを実行していたと報じている。
例えば、OpenAIは「Whisper」と呼ばれる文字起こしAIモデルを開発しているが、これを用いて、YouTube動画100万時間以上分ものデータをかき集めているという。YouTubeはそのコンテンツを無関係な用途に使用することを禁じており、OpenAIもこれが法的に問題があると認識しているにもかかわらず、これが“フェアユース”にあたると信じて実行に移したという。
ではGoogleはどうか?同社もまた、AIモデルの学習にYouTubeの動画トランスクリプトを使用しており、動画クリエイターの著作権を侵害している可能性がある。Google社内の何人かはOpenAIがYouTubeのデータから書き起こしていることを知っていたが、Google社も自社のAIモデルを訓練するために同じことを行っていたため、何もできなかったと報じている。しかし、GoogleはNYT紙に対し、動画のデータスクレイピングは動画の作成者の同意を得てから行っていると述べている。
これに関し、YouTubeのCEOであるNeil Mohan氏は、Bloombergのインタビューに応じた際、同社のポリシーについて「トランスクリプトやビデオビットのようなものをダウンロードすることは許されていません」と、述べている。しかし、YouTubeのデータがOpenAIによって使用されたかどうか質問されると、Mohan氏は曖昧な答えを返した。「私自身は情報を持っていません」。
またNYTによると、Googleは2023年6月、あるチームに「プライバシーポリシーの調整」を依頼し、「YouTube、Google Docs、Google Sheet、およびGoogle翻訳やBard(Gemini)などのシステムを改善するための類似製品を含む、AIトレーニングのためのサービスからより多くのユーザーデータを抽出する」ような変更を行ったと述べている。
米国連邦取引委員会(FTC)は、AIのトレーニングのためにより多くのデータを抽出するためにプライバシー規則を遡及的に調整することに批判的であり、このようなアプローチに対して企業に警告を発している。
Metaも同様に、良質な学習データを手に入れる事に苦慮しており、NYT紙が聴取した記録では、同社のAIチームは、OpenAIに追いつくために努力する一方で、著作権のある作品について、侵害を認識しつつ使用することについても議論していた。同社は、「インターネット上で入手可能なほとんどの英語の書籍、エッセイ、詩、ニュース記事」を調べた後、書籍のライセンス料を支払ったり、大手出版社を買収するなどの手段を取ることも検討したようだという。また、Cambridge Analyticaのスキャンダルを受けて行ったプライバシー重視の変更により、消費者データの利用方法は制限されているようだ。
NYTの報道は、大手テック企業がデータ収集時に第三者の権利を無視し、倫理的な懸念はほとんどなく、自社のビジネスモデルに合うようにルールを曲げていることを示している。
OpenAIやGoogle、そしてより広範なAIトレーニングの世界では、データを吸収すればするほど良くなるモデルのトレーニングデータが急速に枯渇することに頭を悩ませている。
AI企業はデータの不足を補うために、AIが生成した合成データを訓練用にテストしているが、これは既存のエラーやバイアスを悪化させるリスクがあり、時間の経過とともにパフォーマンスが低下する可能性がある。また、人工的なトレーニングデータを生成するモデルが著作権で保護されたデータでトレーニングされた場合、それについても結局の所は正当なデータの出所についても疑問が生じる。
そしてもうひとつの選択肢が、今回注目を集めた、許可を得ているかどうかにかかわらず、見つけられるものは何でも利用することだ。これは限りなく黒に近いグレーであり、企業にとってはリスクの高い選択と言えるだろう。
Sources
- The New York Times: How Tech Giants Cut Corners to Harvest Data for A.I.」
- Bloomberg: YouTube Says OpenAI Training Sora With Its Videos Would Break Rules
コメント