オーストラリア人のほぼ半数が最近人工知能(AI)ツールを使用していると回答する中、AIがいつ、どのように使用されているかを知ることがますます重要になっている。

コンサルティング会社Deloitteは最近、公表した報告書にAIが生成したエラーが含まれていたことを受けて、オーストラリア政府に部分的な返金を行った。

また、弁護士も最近、正式な裁判文書において虚偽のAI生成引用が発見されたことで懲戒処分を受けた。そして多くの大学が、学生によるAIの使用方法について懸念を抱いている。

このような事例の中で、正確で信頼でき、検証されたコンテンツを識別したいという人々のニーズに対応するため、さまざまな「AI検出」ツールが登場している。

しかし、これらのツールは実際にどのように機能するのだろうか?そして、AI生成コンテンツを発見することに効果的なのだろうか?

AD

AI検出ツールはどのように機能するのか?

いくつかのアプローチが存在し、その効果は関与するコンテンツの種類によって異なる可能性がある。

テキスト用の検出ツールは、文章構造、文体、特定の単語やフレーズが使用される予測可能性における「シグネチャ」パターンを探すことで、AIの関与を推測しようとすることが多い。例えば、「delves」や「showcasing」の使用は、AIライティングツールがより利用可能になって以来、急増している。

しかし、AIと人間のパターンの違いはますます小さくなっている。これは、シグネチャベースのツールが非常に信頼性に欠ける可能性があることを意味する。

画像用の検出ツールは、一部のAIツールが画像ファイルに追加する埋め込みメタデータを分析することで機能する場合がある。

例えば、Content Credentialsの検査ツールを使用すると、互換性のあるソフトウェアで作成・編集されたコンテンツであれば、ユーザーがどのようにコンテンツを編集したかを表示できる。テキストと同様に、画像もAI生成コンテンツ(ディープフェイクなど)の検証済みデータセットと比較することができる。

最後に、一部のAI開発者は、AIシステムの出力にウォーターマークを追加し始めている。これらは、人間には知覚できないが、AI開発者によって検出可能な、あらゆる種類のコンテンツにおける隠されたパターンである。ただし、大手開発者のいずれも、まだ検出ツールを一般公開していない。

これらの方法にはそれぞれ欠点と限界がある。

AI検出ツールはどの程度効果的なのか?

AI検出ツールの効果は、いくつかの要因に依存する可能性がある。これには、コンテンツの作成にどのツールが使用されたか、生成後にコンテンツが編集または修正されたかどうかが含まれる。

ツールのトレーニングデータも結果に影響を与える可能性がある。

例えば、AI生成画像を検出するために使用される主要なデータセットには、人物の全身写真や特定の文化圏の人々からの画像が十分に含まれていない。これは、成功する検出がすでに多くの点で制限されていることを意味する。

ウォーターマークベースの検出は、同じ会社のAIツールによって作成されたコンテンツを検出することにかなり優れている可能性がある。例えば、ImagenなどのGoogleのAIモデルの1つを使用する場合、GoogleのSynthIDウォーターマークツールは、結果として得られる出力を発見できると主張している。

しかし、SynthIDはまだ一般公開されていない。また、例えばGoogleが作成していないChatGPTを使用してコンテンツを生成する場合には機能しない。AI開発者間の相互運用性は大きな問題である。

AI検出ツールは、出力が編集された場合にも欺かれる可能性がある。例えば、音声クローニングアプリを使用してからノイズを追加したり、品質を下げたり(小さくする)すると、音声AI検出ツールを混乱させる可能性がある。AI画像検出ツールについても同じことが言える。

説明可能性も大きな問題である。多くのAI検出ツールは、何かがAI生成であることについてどの程度確信しているかの「信頼度推定」をユーザーに提供する。しかし、通常、それらは推論を説明したり、なぜ何かがAI生成だと考えるのかを説明したりしない。

AI検出、特に自動検出に関しては、まだ初期段階であることを認識することが重要である。

この好例は、ディープフェイクを検出する最近の試みに見ることができる。MetaのDeepfake Detection Challengeの優勝者は、5つのディープフェイクのうち4つを識別した。しかし、このモデルはテストされたのと同じデータでトレーニングされていた。これは、クイズを受ける前に答えを見ていたようなものである。

新しいコンテンツに対してテストされたとき、モデルの成功率は低下した。新しいデータセットでは、5つのディープフェイクのうち3つしか正しく識別できなかった。

これらすべては、AI検出ツールが間違いを犯す可能性があり、実際に間違いを犯すことを意味する。誤検知(実際にはそうでないのに何かがAI生成だと主張する)と偽陰性(実際にはそうでないのに何かが人間生成だと主張する)が発生する可能性がある。

関係するユーザーにとって、これらの間違いは壊滅的である可能性がある。例えば、自分で書いたエッセイがAI生成として却下される学生や、AIが書いたメールが実在の人間から来たものだと誤って信じる人などである。

新しい技術が開発または改良され、検出ツールが追いつくのに苦労しているため、これは軍拡競争である。

AD

ここからどこへ向かうのか?

単一のツールに依存することは問題があり、リスクを伴う。一般的に、コンテンツの真正性を評価するためにさまざまな方法を使用する方が安全で優れている。

書かれたコンテンツにおいて情報源を相互参照し、事実を二重チェックすることでそれを行うことができる。または、視覚的なコンテンツの場合、疑わしい画像を同じ時間や場所で撮影されたとされる他の画像と比較することができる。また、何かが怪しく見えたり聞こえたりする場合は、追加の証拠や説明を求めることもできる。

しかし最終的には、検出ツールが不十分である場合や他の選択肢が利用できない場合、個人や機関との信頼関係が最も重要な要因の1つであり続けるだろう。


本記事は、RMIT大学 ビジュアルコミュニケーション・デジタルメディア学科 上級講師T.J. Thomson氏、クイーンズランド工科大学 AI説明責任上級研究員Aaron J. Snoswell氏、RMIT大学メディア・コミュニケーション学部准教授James Meese氏らによって執筆され、The Conversationに掲載された記事「How do ‘AI detection’ tools actually work? And are they effective?」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。