MicrosoftとOpenAIは、米国の8つの新聞社から提訴されている。
このAI大手を訴えたのは、『The New York Daily News』、『The Chicago Tribune』、『The Orlando Sentinel』、『The Sun Sentinel of Florida』、『The San Jose Mercury News』、『The Denver Post』、『The Orange County Register』、『The St Paul Pioneer Press』である。
これらの報道機関は、いずれもメディア・ヘッジファンドのAlden Global Capitalが所有するものだ。「この訴訟は、新技術と旧技術の戦いではない。繁栄する産業と転換期にある産業との戦いでもない。生成AIが提起している社会的、政治的、道徳的、経済的な問題を解決するための戦いでもない。この訴訟は、MicrosoftとOpenAIが、著作権で保護された新聞コンテンツを、そのコンテンツに対価を支払うことなく、新たな1兆ドル規模の企業を構築するために使用する権利がない、というものである」と、原告側は訴状の中で述べている。
原告側は、OpenAIがどれだけ原告の記事に依存しているかを説明するために、Common CrawlのC4データセットに言及している。C4データセットは「インターネットのコピー」と表現され、OpenAIのGPT-3の学習に使用される最も重み付けされたデータセットである。訴状によると、GPTモデルを学習させるために、原告によって発表された記事から少なくとも1億2400万トークンが取得されたとのことだ。これはC4データセット全体に含まれる1560億トークンのごく一部である。
また、MicrosoftのCopilotとOpenAIのChatGPTとの会話から、両社のチャットボットが特定の記事の長い抜粋をコマンドで再生したことを示すいくつかの抜粋を証拠として提出し、両社の学習データセットにそれらの記事のテキストが含まれていることを示した。
加えて、リアルタイムでWebを検索できるCopilotが、記事が投稿されてから1~2日後に、元の記事に戻る「目立つハイパーリンク」なしで、ニュース記事全体をそのまま再現しているとするスクリーンショットも示した。
この提起された訴訟は、昨年12月にThe New York Times紙が12月に起こした訴訟を想起させる物だ。
この訴訟では、OpenAIは、一般的な学習目的のためにニュース記事を含む一般に入手可能なデータを使用することは公正使用であると主張し、強く反発している。OpenAIのSam Altman氏はAIモデルは著作権で保護された素材がなければ学習できないと発言したことも、訴状では指摘されている。
OpenAIは、NYTがChatGPTを操作して忠実に再現させたとして、NYTの訴訟の棄却を求めている。
なお、今回の訴訟について、Microsoftはコメントを発していない。。
Sources
コメント