Cloudflareが、AIボットによる無許可のWebスクレイピングを防ぐ新機能「AI Scrapers and Crawlers」を発表した。この無料ツールは、AIモデル訓練のためのデータ収集を目的としたボットを検出し、ブロックすることができる。コンテンツ制作者の権利を守り、安全なインターネット環境を維持することを目指すこの機能は、Cloudflareの全顧客、無料プラン利用者も含めて利用可能となっている。
AIボットのスクレイピングからあなたのサイトを守る
Cloudflareの調査によると、過去1年間で最もアクティブだったAIボットは、ByteDanceが所有するBytespider、Amazon.comのAmazonbot、AnthropicのClaudeBot、OpenAIのGPTBotであった。特にBytespiderはCloudflareが保護するWebサイトの40%に、GPTBotは同35%にアクセスを試みていたという。
従来、Webサイト運営者はrobots.txtファイルを使用してボットのアクセスを制御していたが、一部のAI企業がこのルールを無視する事例が報告されている。Cloudflareの新機能は、このような悪質なボットを検出し、ブロックすることを目的としている。
Cloudflareのエンジニアは公式ブログで次のように述べている。「残念ながら、ボット運営者が本物のブラウザのように見せかけるために、偽装されたユーザーエージェントを使用しているのを観察しました。この活動を長期にわたって監視してきましたが、私たちのグローバル機械学習モデルは、運営者がユーザーエージェントについて嘘をついていても、常にこの活動をボットとして認識してきたことを誇りに思います」。
Cloudflareの新たな、AIボットによる無断のWebスクレイピングを防ぐ新機能「AI Scrapers and Crawlers」は、Cloudflareのダッシュボードの「セキュリティ>ボット」セクションにあるトグルボタンをクリックするだけで有効にできる、いわゆる「ワンクリック」ソリューションだ。
この機能は Cloudflareの、グローバルネットワークから1秒間に平均5700万件のリクエストを処理するネットワークから得られる得られる膨大なデータを活用し、AIボットの行動パターンや技術的特徴を分析し、実現している。これにより、ユーザーエージェントを偽装するなどの高度な回避技術を使用するボットでも検出可能となっている。 また、機械学習モデルを活用し、ボットのリクエストに1から99までのスコアを付与する。スコアが低いほど、ボットである可能性が高いと判断する。例えば、最近問題となったPerplexity AIのボットは、consistently 30以下のスコアを記録していたという。 加えて、新たなAIボットの指紋(フィンガープリント)が確認された場合、この機能は自動的に更新される。これにより、常に最新のボット対策が可能となるとのことだ。Cloudflareは、顧客が新たに発見したAIボットを報告できるツールも提供している。これにより、新種のボットにも迅速に対応できる体制を整えている。
Cloudflareは「AIコンテンツへの需要が高まる中、一部のAI企業がルールを回避しようとする可能性があります。私たちは監視を続け、AIスクレイパーとクローラーのルールにさらなるボットブロックを追加し、機械学習モデルを進化させていきます。これにより、コンテンツ制作者が繁栄し、自分のコンテンツがどのモデルのトレーニングや推論に使用されるかを完全にコントロールできるインターネットの場を維持する手助けをしていきます」と述べ、今後も対策を強化していく姿勢を示している。
Sources
- Cloudflare: Declare your AIndependence: block AI bots, scrapers and crawlers with a single click
コメント