AI企業はデータに飢えており、これが新たな経済を生み出している。
Reutersの報道によると、古くから存在し、膨大なデータをアーカイブしているインターネット業界のベテラン企業は現在、古いデータアーカイブをAIテクノロジー企業にライセンス供与し、AIモデルの学習データとして利用させることで大きな収益を上げているようだ。
業界関係者によると、OpenAI、Microsoft、Google、MetaなどのAI開発の最前線にある大手テクノロジー企業は、AIモデルを訓練するために、画像、動画、その他のコンテンツのための大規模なライセンス契約を求めているという。これらAI企業は、買い手や素材の種類にもよるが、写真1枚につき5セントから1ドル、動画1本につき1ドル以上を支払っているとのことだ。
Reutersの記事では具体的な価格についても紹介されており、Microsoft、Google、Meta、AppleにデータをライセンスしているDefined.aiの見積もり価格は、画像1枚あたり1~2ドル、短い動画で2~4ドル、長編で1時間あたり100~300ドルとなっている。ヌード画像は特別な扱いが必要で、1枚あたり5ドルから7ドルかかる。テキストは1単語あたり0.001ドルだという。
ストックフォトサービスPhotobucketのTed Leonard CEOは現在、同社が保有する130億枚の写真とビデオを、写真1枚につき5セントから1ドル、ビデオ1本につき1ドル以上でライセンスするよう、複数のテクノロジー企業と交渉しているという。だが、こうした膨大なアーカイブでもAI企業の需要は満たせないようだ。Leonard氏によれば、ある企業は10億本以上の動画を必要としていると言ってきたという。
同様にストックフォトサービスのShutterstockも、Amazon、Google、Meta、Appleと、何億もの画像、ビデオ、音楽ファイルの使用契約を結んだ。最初の契約は2500万ドルから5000万ドルであったが、さらに拡大されている。Reutersによると、すでにShutterstockはOpenAIと契約を結んでいるという。
スペインのプラットフォームであるFreepikは、2億枚の画像アーカイブの大部分を2つの大手テクノロジー企業に1枚あたり2~4セントでライセンスした。CEOのJoaquin Cuenca Abela氏によると、同様の取引があと5件控えているという。
PhotobucketのLeonard氏は、法的には安全側にいると考えている。同氏は、10月に更新された利用規約で、アップロードされたコンテンツをAIシステムの訓練用に販売する「無制限の権利」が与えられていることを指摘している。彼は、無料アカウントを提供し続けるための広告の代替手段として、ライセンス供与を考えている。
しかし、米連邦取引委員会(FTC)は2月、AIの使用に関する利用規約を遡及的に変更しないよう企業に警告した。
例えば、消費者のデータを第三者と共有し始めたり、そのデータをAIのトレーニングに使用したりするなど、企業がより寛容なデータ慣行を採用し、その変更を利用規約やプライバシーポリシーの密かな遡及修正によってのみ消費者に知らせることは、不公正または欺瞞的である可能性がある。
同機関は、RedditがGoogleと結んだトレーニングデータ契約を調査している。Redditの既に人間による評価が行われている良質なデータは、AI企業にとって最も重要なデータのひとつと考えられている。
Source
コメント