2023年半ば、Elon MuskがTwitterをXにリブランドした頃、しかしプラットフォームの無料学術アクセスが廃止される前に、私の同僚たちとは、人工知能によって生成されたコンテンツを投稿するソーシャルボットアカウントの痕跡を探していた。ソーシャルボットとは、コンテンツを生成しソーシャルメディア上で人々と交流するAIソフトウェアである。調査の結果、暗号資産詐欺に関与する1,000以上のボットのネットワークを発見した。このネットワークが拡散するよう設計された偽ニュースサイトの一つにちなんで、私たちはこれを「fox8」ボットネットと名付けた。

これらのアカウントを特定できたのは、コーダーが少々不注意だったためである。ChatGPTが生成した自己露呈テキストを含む投稿を見逃していたのだ。例えば、AIモデルが利用規約に違反するプロンプトへの応答を拒否した際のテキストがそれにあたる。最も一般的な自己露呈レスポンスは、「申し訳ありませんが、このリクエストはOpenAIのコンテンツポリシーに違反するため応じることができません。AIモデルとして、私の回答は常にすべての読者に対して敬意を持った適切なものでなければなりません」というものであった。

fox8はあくまでも氷山の一角であると私たちは考えている。なぜなら、より優れたコーダーであれば自己露呈投稿をフィルタリングしたり、倫理的なガードレールを取り除くようにファインチューニングされたオープンソースのAIモデルを使用したりできるからだ。

fox8のボットたちは、現実味のある双方向の議論やリツイートを通じて、互いに、そして人間のアカウントとの間で偽のエンゲージメントを作り出した。こうして、Xの推薦アルゴリズムを騙してボットの投稿の露出を増幅させ、相当数のフォロワーと影響力を蓄積した。

このような非正規のオンラインエージェント間での協調行動のレベルは前例のないものであった。AIモデルが武器化され、初期のソーシャルボットよりはるかに高度な新世代のソーシャルエージェントを生み出したのである。私たちのBotometerのような機械学習を用いたソーシャルボット検出ツールは、実環境においてこれらのAIエージェントと人間のアカウントを区別できなかった。AI生成コンテンツを検出するよう訓練されたAIモデルでさえも失敗した。

AD

生成AIの時代におけるボット

それから数年が経った現在、悪意ある人物や組織は、オープンソースを含む、より強力なAI言語モデルにアクセスできるようになっている。一方、ソーシャルメディアプラットフォームはモデレーションの取り組みを緩和または廃止しており、AI生成かどうかを問わず、エンゲージメントの高いコンテンツに対して金銭的インセンティブまで提供している。これは、民主主義的な選挙を標的とした国内外の影響力工作にとって格好の嵐となっている。例えば、AIが制御するボットの群れは、ある政治候補者に対する超党派的な反対意見が広く存在するかのような偽りの印象を作り出すことができる。

現在のアメリカ政権は、こうした敵対的キャンペーンに対抗する連邦プログラムを解体し、それらを研究する取り組みへの資金提供打ち切った。研究者たちは、こうした種類のオンライン操作を検出・監視するために不可欠なプラットフォームデータへのアクセスをもはや持てない状況にある。

私は、コンピュータサイエンス、AI、サイバーセキュリティ、心理学、社会科学、ジャーナリズム、政策の各分野にわたる学際的な研究チームの一員として、悪意あるAIスウォームの脅威について警鐘を鳴らしてきた。現在のAI技術により、悪意ある組織は大量の自律的・適応的・協調的なエージェントを複数のソーシャルメディアプラットフォームに展開できると、私たちは確信している。これらのエージェントは、単純な定型文による偽情報キャンペーンよりも、はるかにスケーラブルで高度かつ適応的な影響力工作を可能にする。

同一の投稿やスパムを生成するのではなく、AIエージェントは大規模に多様で信頼性の高いコンテンツを生成できる。スウォームは、個々のユーザーの好みやオンライン上の会話のコンテキストに合わせたメッセージを送ることができる。また、人間とのインタラクションや「いいね」数・閲覧数などのプラットフォームシグナルに対して、口調・スタイル・内容を動的に調整することもできる。

合成的合意

昨年、私の同僚たちと実施した研究において、私たちはソーシャルメディアモデルを用いて、ターゲットとするオンラインコミュニティに影響を与えるためのさまざまな戦術を使う非正規ソーシャルメディアアカウントの群れをシミュレートした。その中で、一つの戦術が群を抜いて最も効果的であることが判明した。それが「潜入(インフィルトレーション)」である。オンライングループへの潜入が成功すると、悪意あるAIスウォームは、自分たちが宣伝するよう設定されたナラティブに対して、広く一般的な合意が存在するかのような幻想を作り出すことができる。これは「社会的証明」として知られる心理現象を利用したものであり、「みんながそう言っている」と認識すると人間はその内容を信じやすくなる性質がある。

こうしたソーシャルメディアのアストロターフ戦術は長年にわたって存在してきたが、悪意あるAIスウォームは、ターゲットとなる人間ユーザーと大規模に信頼性の高いインタラクションを行い、そのユーザーに非正規アカウントをフォローさせることができる。例えば、エージェントはスポーツファンには最新のゲームについて、ニュースジャンキーには時事問題について話すことができる。ターゲットの興味や意見に共鳴する言語を生成することもできる。

個々の主張が否定されたとしても、独立した声のように聞こえる発言が絶えず繰り返されることで、過激な考えが主流であるかのように見せ、「他者」への否定的な感情を増幅させることができる。製造された合成的合意は、民主主義社会が共有された信念を形成し、意思決定を行い、公共言論を信頼するために用いる仕組みである公共圏に対する、きわめて現実的な脅威である。もし市民が真の世論とアルゴリズムによって生成された満場一致のシミュレーションを確実に区別できなくなれば、民主主義的な意思決定は深刻に損なわれる可能性がある。

AD

リスクの軽減

残念ながら、単一の解決策は存在しない。研究者がプラットフォームデータにアクセスできるようにする規制が第一歩となるだろう。スウォームが集団としてどのように振る舞うかを理解することは、リスクを予測するために不可欠である。協調行動の検出は重要な課題である。単純なコピー&ペーストのボットとは異なり、悪意あるスウォームは通常の人間のインタラクションに似た多様な出力を生成するため、検出がはるかに困難である。

私たちの研究室では、通常の人間のインタラクションから逸脱した協調行動のパターンを検出する手法を開発している。エージェントが互いに異なる外見を持っていても、その根底にある目的は、タイミング・ネットワーク上の動き・ナラティブの軌跡にパターンを生じさせることが多く、それらは自然には発生しにくいものである。

ソーシャルメディアプラットフォームはこうした手法を活用できるだろう。また、AIおよびソーシャルメディアプラットフォームは、AI生成コンテンツへのウォーターマーク付与に関する標準をより積極的に採用し、そうしたコンテンツを認識してラベル付けすべきだと考える。さらに、非正規エンゲージメントの収益化を制限することで、影響力工作やその他の悪意あるグループが合成的合意を利用する金銭的インセンティブを低減できるだろう。

脅威は現実のものである

これらの対策は、悪意あるAIスウォームが世界中の政治・社会システムに定着する前に、その組織的リスクを軽減できるかもしれない。しかし、現在のアメリカの政治情勢は逆の方向に向かっているようだ。Trump政権はAIおよびソーシャルメディアに対する規制の縮小を目指しており、安全性よりもAIモデルの迅速な展開を優先している。

悪意あるAIスウォームの脅威はもはや理論的なものではない。私たちの証拠は、こうした戦術がすでに展開されていることを示唆している。政策立案者と技術者は、こうした操作のコスト・リスク・可視性を高めるべきであると、私は確信している。


本記事は、インディアナ大学 情報学・コンピュータ科学教授 Filippo Menczer氏によって執筆され、The Conversationに掲載された記事「Swarms of AI bots can sway people’s beliefs – threatening democracy」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。