膨大なAI学習データに許可を取っていない多くの子供たちの写真が発見された

2024年7月3日

当記事のリンクにはアフィリエイト広告が含まれています。

オーストラリアの子供たちの写真が、画像を生成する人工知能（AI）モデルの訓練に無断で使用されていたことが判明した。

非政府組織Human Rights Watchの新しい報告書によると、LAION-5Bと呼ばれる大規模なデータセットに、オーストラリアの子供たちの写真を含む個人情報が含まれていることが明らかになった。このデータセットは、公開されているインターネット上のコンテンツにアクセスして作成されたもので、約58億5000万件の画像とそれに対応するキャプションへのリンクが含まれている。

企業は、LAION-5Bのようなデータセットを使用して、生成AIツールに視覚的なコンテンツの「学習」をさせている。MidjourneyやStable Diffusionのような生成AIツールは、その後、訓練データに含まれる何千ものデータポイントから画像を組み立てる。

多くの場合、AIモデルの開発者とその訓練データは、データ保護法や消費者保護法を無視しているように見える。彼らは、モデルを構築して展開すれば、法律や取り締まりが追いつくまでの間に、ビジネス目標を達成できると考えているようだ。

Human Rights Watchが分析したデータセットは、ドイツの非営利組織LAIONが管理している。Stanfordの研究者たちは以前、この同じデータセットに児童の性的虐待画像が含まれていることを発見している。

LAIONは現在、Human Rights Watchが発見したオーストラリアの子供たちの写真を削除すると約束している。しかし、すでにこのデータを使用したAI開発者たちは、自分たちのAIモデルにそれを「忘れさせる」ことはできない。また、プライバシー侵害というより広範な問題も残っている。

インターネット上にあるものは自由に使えるのか？

公開されているものだからプライバシー法が適用されないというのは誤解である。オーストラリアのプライバシー法では、公開されている情報も個人情報となり得る。

実際、関連する事例として、顔認識プラットフォームClearview AIが2021年にオーストラリア人のプライバシーを侵害したと判断された事例がある。同社はインターネット上のWebサイトから人々の画像をスクレイピングし、顔認識ツールに使用していた。

オーストラリア情報コミッショナー事務局（OAIC）は、それらの写真がすでにWebサイト上にあったとしても、依然として個人情報であると判断した。さらに、それらは機密情報であるとされた。

OAICは、Clearview AIが個人情報の収集に関する義務に従わなかったことでプライバシー法に違反したと判断した。つまり、オーストラリアでは、個人情報には公開されている情報も含まれる。

AI開発者は、使用するデータセットの出所について非常に慎重である必要がある。

プライバシー法を執行できるのか？

ここでClearview AIの事例が関連してくる。LAIONが現行のオーストラリアのプライバシー法に違反した可能性があるという強力な主張が潜在的に存在する。

そのような主張の一つは、個人の同意なしに顔画像の形で生体認証情報を収集したことに関するものである。

オーストラリアの情報コミッショナーは、Clearview AIが同意なしに機密情報を収集したと判断した。さらに、これは「不公正な手段」によって行われた：顔認識ツールに使用するために、様々なWebサイトから人々の顔情報をスクレイピングしたのである。

オーストラリアのプライバシー法では、データを収集する組織は、個人に対して収集通知を提供しなければならない。インターネット全体から広範に画像をスクレイピングするような行為では、企業が関係するすべての人に適切な通知を行う可能性は極めて低い。

この事例でオーストラリアのプライバシー法違反が認められた場合、プライバシーコミッショナーによる強力な執行措置が必要である。例えば、コミッショナーは、プライバシーへの重大な干渉がある場合、非常に高額な罰金を求めることができる可能性がある：5000万オーストラリアドル、売上高の30%、または得られた利益の3倍のいずれか大きい方である。

連邦政府は8月にプライバシー法の改正案を発表する予定である。これは、過去数年間に行われたプライバシー法の大規模な見直しに続くものである。

これらの改革の一環として、子供のプライバシー保護規定の提案がなされている。これは、個人情報の潜在的な悪用に関して、子供たちが大人よりもさらに脆弱な立場にあることを認識したものである。子供たちは多くの場合、何が収集され、使用されているか、そしてそれが彼らの人生にどのような影響を与えるかについて、十分な判断力を持っていない。

親は何ができるか？

子供の写真をインターネット上に公開しない理由は多くある。望まれない監視、犯罪目的を持つ者による子供の特定のリスク、ディープフェイク画像（児童ポルノを含む）での使用などがある。これらのAIデータセットは、さらに別の理由を提供している。親にとって、これは継続的な戦いである。

Human Rights Watchは、LAION-5Bデータセットに、非公開で検索不可能なYouTubeビデオからスクレイピングされた写真が含まれていることを発見した。LAIONはその回答で、悪用から最も効果的に保護する方法は、インターネットから子供の個人写真を削除することだと主張している。

しかし、子供の写真を公開しないと決めたとしても、他の人があなたの子供を撮影し、その画像がインターネット上で利用可能になる状況は多くある。これには、保育園、学校、スポーツクラブなどが含まれる可能性がある。

個々の親として子供の写真を公開しないことは素晴らしいことだ。しかし、この問題を全面的に回避することは難しい。そして、これらの画像がAIの訓練データに入ってしまった場合、すべての責任を親に負わせるべきではない。代わりに、テクノロジー企業に責任を持たせ続けなければならない。

本記事は、Katharine Kemp氏によって執筆され、The Conversationに掲載された記事「Photos of Australian kids have been found in a massive AI training data set. What can we do?」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。