大規模言語モデルのトレーニングデータの出処に関する議論はまだ続いているが、AI企業は報道機関との提携を続けており、その最新の動きとしてChatGPTの開発元であるOpenAIが、英国の経済紙「Financial Times」紙(FT)と戦略的提携を結んだことが発表された。
この提携により、FTはOpenAIに記事データを提供し、OpenAIはFTのデータを用いて大規模言語モデルのトレーニングデータを行う事が出来る様になる。また、FTも読者のための新たなAIツールの開発のためにOpenAIの技術を用いるとのことだ。
加えて、FTのスタッフはChatGPT Enterpriseを使うことも始める。だがそれでも、FTは「人間のジャーナリズムにコミット」しているという。FTのCEOであるJohn Ridding氏は、「AIプラットフォームが出版社にその素材の使用料を支払うのは、もちろん正しいことだ」と述べ、この契約は、「OpenAIがFTのジャーナリズムを評価し、AIシステムがコンテンツをどのように利用するかを理解したいと考えていることを示している」と指摘している。両社とも、契約の金銭的条件については明らかにしていない。
「FTにとっての利益とは別に、業界にとってより広い意味合いがあります。もちろん、AIプラットフォームが出版社にコンテンツの使用料を支払うのは正しいことです。OpenAIは、透明性、アトリビューション、報酬の重要性を理解しています。同時に、これらの製品に信頼できる情報源が含まれていることは、明らかにユーザーの利益になります。決して不可能なことは、時間を戻すことです」と、Ridding氏は付け加えた。
OpenAIは、透明性を保ち、信用を与え、コンテンツに対価を支払うことが重要であることを知っている、とFTは述べた。
GPT-4に代表される大規模言語モデルIは、そのモデルをトレーニングするために使用されるデータの質によって、そのパフォーマンスが大きく左右される。これまでのところ、AI企業はクリエイターの同意なしに、公共のインターネットからできる限りのものをかき集めており、これらのモデルによって生成される出力を最新のものに保つために、常に新しいデータソースを探している。ニュースのAIモデルをトレーニングすることは、そのためのひとつの方法だが、一部のパブリッシャーは、自社のコンテンツをAI企業に無料で提供することに慎重だ。例えば、New York TimesやBBCは、OpenAIによるWebサイトのスクレイピングを禁止している。
その結果、OpenAIは自社のモデルを訓練し続けるために、大手出版社と金銭的な契約を結んでいる。昨年、同社はドイツの出版社Axel Springerと提携し、米国の『Politico』と『Business Insider』、ドイツの『Bild』と『Die Welt』の新着記事でモデルをトレーニングした。同社はまた、Associated Press、フランスのLe Monde、スペインのPrisa Mediaとも契約を結んでいる。しかし、OpenAIの提供する出版物からのコンテンツライセンスは100万ドルから500万ドルであり、Appleのような他の企業が提供するものよりかなり少ないと言われている。
Source
- Financial Times: Financial Times announces strategic partnership with OpenAI
コメント