生成AIの競争はモデルの規模だけでなく、モデルに入るデータを誰が管理し、どの条件で使わせるのかという層へ移っている。Mozilla Foundationが支援するMozilla Data Collectiveは、その層をプラットフォーム化しようとしている。狙いは、インターネットから大量に集めたデータを後から処理する従来型の調達ではなく、作成者やコミュニティが利用条件、アクセス、対価を決めるAIデータ市場を作ることだ。

Mozilla Foundationは2026年5月19日、Mozilla Data Collectiveが英国を拠点とする独立したミッション主導の事業体として次の段階に入ったと発表した。合わせて、データ提供者がアクセスを承認できる「Request to Access」、開発者が自然文で必要なデータを探せる「Data Assistant」、提供者が価格とライセンス条件を設定できる予定の「Payments and Compensation」を打ち出した。発表時点で、同プラットフォームには190以上の審査済み組織が参加し、300以上の言語にまたがる600件超のキュレーション済みデータセットが共有されていた。

Mozilla Data Collectiveのデータ一覧ページは、2026年6月15日時点で799件のデータセットを表示している。数が増えているだけではない。音声認識、音声合成、機械翻訳、自然言語処理、手話など、AI開発で不足しがちな言語・文化圏の素材が並ぶ。Mozillaがここで売り込んでいるのは、権利者が条件を示し、利用者がその条件を受け入れ、必要に応じて支払うという、データの調達手順そのものだ。

AD

独立事業化で、データ共有を「善意」から運用へ移す

Mozilla Data Collectiveは、Mozilla Foundationが育ててきたCommon Voiceの経験から生まれた。Common Voiceは、世界中の参加者が音声を提供してきた公開参加型の音声データプロジェクトであり、低リソース言語のAI開発に大きな役割を果たしてきた。一方で生成AIの普及は、公開データが大規模で不透明な商用モデルに取り込まれたとき、誰が利益を得るのかという問いを強めた。

Mozilla Data Collectiveのコミュニティページによると、チームは2025年9月にプラットフォームを構築し、同年11月に近いパートナー向けに開いた。2026年4月には、この活動を担う英国法人としてスピンアウトした。Common Voice自体は引き続きMozilla Foundationが管理するが、Mozilla Data Collectiveはより広いデータ共有市場を扱う器になった。

この法人化には資金面の意味もある。Mozilla Foundationは最大1,000万ドルの支援を約束し、5月時点で500万ドルをすでに投じた。非営利の助成だけでは、審査、契約、API、ストレージ、決済を備えた継続的なデータ基盤を維持しにくい。そこでMozilla Data Collectiveは、ミッションを組織構造に組み込みつつ、取引を処理できる企業形態を選んだ。

アクセス承認、発見支援、決済がデータ主権を機能に変える

新機能の中心は、データ提供者に判断権を残すことにある。Request to Accessでは、提供者がデータセットごとにアクセス申請を求められる。ダウンロードは承認後に有効になるため、研究、教育、商用利用など、想定する用途と申請者が合うかを事前に確認できる。

Data Assistantは、開発者側の探索コストを下げる機能だ。開発者は必要なデータを自然文で説明し、既存のコレクションから候補を探せる。見つからない場合は、特に不足している言語、地域、モダリティのデータを求めるリクエストにもつなげられる。AIデータ市場では、良いデータが存在しても、メタデータや利用条件が不明だと調達の選択肢に入らない。この機能は、その発見と交渉の入口を狭めないためのものだ。

Payments and Compensationは、データ提供者が価格を設定し、ライセンス料を直接受け取る予定の仕組みである。Mozilla Foundationの発表では、提供者はライセンス料の100%を受け取り、Mozilla Data Collectiveはダウンロード側に別途5%のプラットフォーム手数料を課す。提供者から手数料を取らない設計は、データを預ける側にとって分かりやすい。大規模なデータ仲介では手数料や再販売の流れが見えにくくなりやすいが、Mozillaはここを透明な市場設計として打ち出している。

AD

AI Act時代のデータ調達は、所在地より「使う権利」を問われる

この動きが強いのは、AIデータの論点が「どこに保存されているか」だけでは済まなくなっているからだ。DevoteamはAI時代のデータ主権について、データの所在よりも、誰がどの法域でアクセスでき、処理ソフトウェアをどれだけ制御できるかが重要だと整理している。AIではさらに、学習やファインチューニングに使ったデータの来歴、推論時に入力した情報の処理場所と可視性が問われる。

欧州ではAI Actの段階的な適用も進む。EUR-Lexに掲載されたRegulation (EU) 2024/1689のArticle 113は、同規則が2026年8月2日から広く適用されると定めている。一部の章は2025年から、Article 6(1)と対応する義務は2027年8月2日から適用される。さらにArticle 10は、高リスクAIシステムの学習、検証、テスト用データセットについて、目的に応じたデータガバナンスと管理を求める。規制対応の細部には段階差があるが、企業がAIシステムのデータ、手順、統制を説明する必要が高まる流れは変わらない。

Mozilla Data Collectiveは、この圧力をコンプライアンス製品としてだけ扱っていない。プラットフォーム上の説明では、データ提供者は所有権を保ち、条件を設定し、オープンソース、コミュニティ管理、補償付き共有を選べる。ダウンロード側には、来歴とライセンスが明確なデータを探せる場を提供する。規制対応と公正な対価の議論を分けず、同じデータ取引の設計問題として扱っている点が特徴だ。

開発者向けの実装面はまだ若いが、APIとSDKは動き始めた

データ市場が実務に乗るには、理念だけでなく開発者が使える導線が必要になる。Mozilla Data CollectiveのサイトにはAPIページがあり、ベータ版としてデータセットへのアクセス、APIキー、利用条件への同意、RESTエンドポイントやPythonライブラリによるダウンロードの流れを示している。

GitHub上のMozilla Data Collective組織には8件の公開リポジトリがあり、中心にあるdatacollective-pythonは公式Python SDKとして位置づけられている。READMEは、データセットにアクセスする前に各データセットの条件とライセンスを読む必要があると明記する。SDKは2026年5月21日に0.5.1をリリースしており、0.x系の間は破壊的変更があり得るとも警告している。

この状態は、プラットフォームがまだ完成した標準ではなく、立ち上がり期の開発基盤であることを示す。同時に、データセットの投稿、ファイルアップロード、メタデータ取得、ローカル保存、pandas DataFrameへの読み込みといった導線はすでに用意されている。AI開発者にとっての価値は、希少なデータを見つけるだけでなく、後で説明できる取得経路と利用条件を残せることにある。

AD

最大の試験は、信頼できるデータに市場が対価を払うかだ

Mozilla Data Collectiveが挑むのは、技術的なデータポータル作りより難しい市場設計である。SiliconANGLEの取材で、創業者兼CEOのE.M. Lewis-Jong氏は、AIに必要なのはクリーンで豊富、文脈化され、同意に基づくデータセットだと述べている。同氏はまた、Mozilla Data Collectiveをデータブローカーというより、開発者と見過ごされてきたコミュニティをつなぐ橋として位置づけている。

制約も明確だ。独自条件をライセンスに書けても、学習済みモデルの内部や下流利用まで完全に追跡し、すべての条件を強制することは簡単ではない。Axiosの初期報道でも、Lewis-Jong氏は特別な利用条件を実際に執行する仕組み作りが課題だと認めていた。Mozilla Data Collectiveが提供できるのは、少なくとも入口での審査、契約、アクセス制御、来歴表示、対価の流れを整えることだ。

それでも、AI開発の重心が評価、監査、地域対応、権利処理へ移るほど、この入口の価値は上がる。無料で広く使えるデータは今後も重要だが、言語、文化、権利関係が複雑なデータほど、誰が提供し、何を許し、どの条件で使えるのかを明示する市場が必要になる。Mozilla Data Collectiveの成否は、799件まで見えるデータセットを開発者が実際に採用し、提供者が設定した条件と対価が取引の中で守られるかにかかっている。