人工知能(AI)の急速な発展に伴い、AIトレーニングデータセットの安全性と倫理性が喫緊の課題となっている。この課題に対応するため、非営利研究組織LAIONは2024年9月1日、画期的な新データセットRe-LAION-5Bをリリースした。Re-LAION-5Bは、児童の性的虐待材料(CSAM)に関連する既知のリンクを徹底的に除去した、初のWebスケールのテキストと画像ペアデータセットとして、今後注目を集めそうだ。
LAIONによるRe-LAION-5Bの開発背景
LAIONは、AIの基盤モデル研究に不可欠な大規模データセットの構築と、その透明性の確保を目的として活動している。しかし、LAION-5Bは、Stable DiffusionやGoogleのImagen、openCLIPなどのオープンソースAIモデルの訓練に広く使用されていたが、2023年12月にStanford Internet Observatoryが実施した調査により、潜在的なCSAMへのURLリンクが含まれていることが明らかになった。
LAIONの発表によると、LAION-5Bに含まれていた58億の画像リンクのうち、1008件(データセット全体の0.000017%)が「CSAM」または「可能性の高いCSAM」を指していたとされる。この発見を受け、LAIONは即座にLAION-5Bの公開を停止し、包括的な安全性の見直しを開始した。
安全性の見直しにあたり、LAIONはInternet Watch Foundation(IWF)やCanadian Children Protection organization(C3P)、Human Rights Watch(HRW)といった専門組織と協力関係を構築し、違法コンテンツの特定と除去のための新しいシステムを開発した。この協力体制により、LAIONは専門知識を持つ組織のサポートを得て、より安全なデータセットの作成を実現した。
Re-LAION-5Bの特徴と技術的革新
Re-LAION-5Bは、研究用(Re-LAION-5B research)と安全性を重視した(Re-LAION-5B research-safe)2つのバージョンで提供される。LAIONによると、合計2,236件のリンクが、パートナー組織から提供されたハッシュリストを使用して削除された。この数には、Stanford Internet Observatoryの報告書で特定された1,008件のリンクも含まれている。
重要な点として、LAIONはこれらのリンクを削除する際、疑わしいコンテンツに直接アクセスすることなく、パートナー組織から提供されたMD5画像ハッシュとURLハッシュを使用した。これにより、潜在的に違法なコンテンツに触れることなく、安全にデータセットをクリーニングすることができた。
Re-LAION-5Bは、合計55億のテキストと画像のペアを含んでいる。第三者は、このメタデータを使用してLAION-5Bの既存の派生物をクリーンアップし、差分を生成して一致するすべてのコンテンツを削除することができる。この方法により、Re-LAION-5Bは単なるデータセットの更新以上の意味を持ち、AI研究コミュニティ全体のデータ安全性向上に貢献することが期待される。
新たなRe-LAION-5Bは、総計55億のテキストと画像のペアを含む巨大なデータセットとなっている。LAIONは、このデータセットのメタデータを公開することで、第三者がLAION-5Bの既存の派生物をクリーンアップし、問題のあるコンテンツを特定・削除することを可能にした。この取り組みは、AIトレーニングデータの安全性向上に向けた画期的な進展として評価されている。
生成AIの発展とCSAM対策の新たな課題
Re-LAION-5Bの開発は、AIトレーニングデータの浄化という重要な一歩を示す一方で、生成AI技術の急速な発展がもたらす新たな課題も浮き彫りにしている。Internet Watch Foundation(IWF)の報告によると、2023年秋にはAIで生成されたCSAMが急増したという。
この問題は、Re-LAION-5Bのような安全なデータセットの重要性をさらに高めている。AIで生成されたCSAMの増加は、実際の児童虐待事例の調査を複雑化させ、法執行機関の負担を増大させている。さらに、ソーシャルメディアプラットフォームが自動生成するAI生成の潜在的なCSAM報告も、真の被害事例の特定を困難にしている。
今後、AI開発者や研究者、法執行機関、児童保護団体などが協力し、より安全で倫理的なAI技術の発展を目指すことが求められている。
Source
コメント