AIシステムと人間は世界を異なる方法で「見て」いる――そしてそれがAI画像がこれほど派手に見える理由である

コンピュータはどのように世界を見ているのだろうか。それは人間の見方とは全く同じではない。

生成人工知能(AI)の最近の進歩により、コンピュータ画像処理でより多くのことができるようになっている。例えば、AIツールに画像を説明するよう求めたり、提供した説明から画像を作成するよう求めたりすることができる。

生成AIツールやサービスが日常生活にますます組み込まれるにつれ、コンピュータビジョンが人間の視覚とどのように比較されるかについてより多くを知ることが不可欠になっている。

Visual Communicationに掲載された私の最新研究では、AI生成の説明と画像を使用してAIモデルがどのように「見ている」かを把握し、人間の視覚領域とは全く異なる、鮮やかで扇情的な一般的画像の世界を発見した。

人間とコンピュータの視覚の比較

人間は、光の波が虹彩、角膜、水晶体を通って目に入ると物を見る。光は眼球内部の網膜と呼ばれる光感受性の表面によって電気信号に変換され、その後、私たちの脳がこれらの信号を解釈して見る画像にする。

私たちの視覚は、色、形、動き、奥行きなどの重要な側面に焦点を当てている。私たちの目は、環境の変化を検出し、潜在的な脅威や危険を識別することを可能にする。

コンピュータの動作は全く異なる。コンピュータは画像を標準化し、メタデータ(画像ファイル内の時間や場所の情報など)を通じて画像のコンテキストを推論し、画像を以前に学習した他の画像と比較することによって画像を処理する。コンピュータは、画像に存在するエッジ、コーナー、テクスチャなどに焦点を当てる。また、パターンを探し、オブジェクトを分類しようとする。

あなたはおそらく、オンラインのCAPTCHAテストを完了することで、コンピュータが「見る」方法を学ぶのを助けたことがあるだろう。

これらは通常、コンピュータが人間とボットを区別するのを助けるために使用される。しかし、機械学習アルゴリズムを訓練し改善するためにも使用される。

したがって、「バスが写っている画像をすべて選択してください」と求められたとき、あなたは人間であることを証明するだけでなく、ソフトウェアが異なる種類の車両の違いを学ぶのを助けているのである。

コンピュータがどのように異なって「見る」かを探る

私の新しい研究では、大規模言語モデルに、視覚的に異なる2つの人間が作成した画像セットを説明するよう求めた。

1つのセットは手描きのイラストを含み、もう1つはカメラで撮影された写真で構成されていた。

私はその説明をAIツールにフィードバックし、それが説明したものを視覚化するよう求めた。その後、元の人間が作った画像とコンピュータ生成の画像を比較した。

結果として得られた説明は、手描き画像がイラストであることを指摘したが、他の画像が写真であることや高いレベルのリアリズムを持っていることには言及しなかった。これは、AIツールが特に指示されない限り、フォトリアリズムをデフォルトの視覚スタイルとして見ていることを示唆している。

文化的コンテキストは説明からほとんど欠落していた。AIツールは、例えば画像内のアラビア語やヘブライ語の文字の存在から文化的コンテキストを推論できなかったか、推論しようとしなかった。これは、AIツールのトレーニングデータにおける英語のような一部の言語の支配を強調している。

色は人間の視覚にとって不可欠であるが、これもAIツールの画像説明ではほとんど無視された。視覚的な奥行きと遠近法もほとんど無視された。

AI画像は手描きのイラストよりも箱型であり、イラストはより有機的な形状を使用していた。

AI画像はまた、元の画像よりもはるかに彩度が高かった。より明るく、より鮮やかな色を含んでいた。これは、AIツールのトレーニングデータにおいて、より「コントラストが強い」傾向があるストック写真の蔓延を明らかにしている。

AI画像はまた、より扇情的であった。元の画像の1台の車が、AIバージョンでは長い車列の1台になった。AIはテキストだけでなく、視覚的形式でも詳細を誇張するようである。

AI画像の一般的な性質は、それらが多くのコンテキストや国を越えて使用できることを意味する。しかし、特異性の欠如はまた、観客がそれらをあまり本物ではなく、魅力的ではないと認識する可能性があることも意味する。

人間またはコンピュータの視覚をいつ使用するかを決定する

この研究は、人間とコンピュータが異なって「見ている」という概念を支持している。画像を説明または作成するためにコンピュータまたは人間の視覚にいつ依存するかを知ることは、競争上の優位性となり得る。

AI生成画像は目を引くことがあるが、より詳しく調べると中身が空っぽに見えることもある。これはそれらの価値を制限する可能性がある。

画像は感情的な反応を引き起こすことに長けており、観客は特定の条件を本物らしく反映する人間が作成した画像を、コンピュータ生成の試みよりもより魅力的だと感じるかもしれない。

しかし、AIの能力は、大規模なデータセットに迅速にラベルを付け、人間がそれらを分類するのを助けるための魅力的な選択肢にすることができる。

最終的に、人間とAIの視覚の両方に役割がある。それぞれの機会と限界についてより多くを知ることは、あなたがより安全で、より生産的で、デジタル時代においてコミュニケーションを取るためのより良い装備を持つことに役立つ。

本記事は、RMIT大学ビジュアルコミュニケーション・デジタルメディア学科上級講師 T.J. Thomson氏によって執筆され、The Conversationに掲載された記事「AI systems and humans ‘see’ the world differently – and that’s why AI images look so garish」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。