フレームに毛が映っていなくても、毛のないスフィンクス猫の写真を見れば、それが猫であることはすぐにわかる。象と見間違えることはないはずだ。

しかし、多くのAIビジョンシステムはそうした誤りを犯す。なぜか。AIシステムが物体を分類する際、表面のテクスチャやピクセルの単純なパターンといった視覚的手がかりに頼ることが多いからだ。この傾向により、人間の知覚にほとんど影響を与えない小さな変化に対して、AIは混乱しやすくなる。

人間の知覚により近いビジョンシステム——たとえば形状を重視するもの——であれば、その猫をトラのような形状の似た哺乳類と混同することはあっても、象と判定する可能性は低い。

AIが犯す誤りの種類は、AIがどのように視覚情報を整理しているかを明らかにし、リスクの高い場面では深刻な問題となり得る限界を示している。

破損した一時停止標識に近づく自動運転車を想像してほしい。人間のドライバーは形状と文脈からその標識を認識できるが、ピクセルパターンに依存するAIはそれを誤分類し、その標識を「標識」というカテゴリから完全に除外してしまう可能性がある——そして、看板や広告、その他の道路脇の物体など、類似していると判断した別の画像グループに分類してしまう。

これらの問題は、人間が視覚世界を認識する方法と、AIがそれを表現する方法との間にミスアラインメント(不一致)があることを示している。

筆者らは視覚知覚の専門家であり、人間と機械の知覚の交差点で研究を行っている。人間は視覚的な入力を、経験と文脈によって形成された物体・意味・関係性へと整理する。AIモデルは視覚情報を同じようには整理しない。この根本的な違いが、AIが時に予想外の形で失敗する理由を説明している。

AD

特徴ではなく物体として見る

目の前に、直線と曲線の両方を持つ小さな不透明な物体があるとする。しかし、あなたはそれらの特徴を見ているのではなく、コーヒーマグとして見ているはずだ。

視覚とはカメラのように世界を受動的に記録するものではない。脳は目が受け取った光を素早く変換し、認識・理解できる物体へと変え、経験を構造化された心的表象へと整理する。

研究者は、人間が類似性をどう判断するかを調べることで、こうした表象がどのように構造化されているかを理解できる。コーヒーマグはパソコンとは似ていないが、見た目が違っていても水の入ったグラスとは似ていると感じる。この判断は、マグが心の中でどう表象されているかを反映している——見た目だけでなく、用途や日常活動の中での位置づけも含めて。

重要なのは、表象の心的整理が柔軟であるという点だ。物体のどの側面が際立つかは、文脈や目的によって変化する。引越しの荷詰めをしているなら、形とサイズが最も重要になるため、マグはどこに収まってもいい。しかし食器棚にしまうときは、他の飲み物用容器の隣に置く。マグ自体は変わっていない——変わるのは、頭の中でどう整理されるかだ。

人間の視覚知覚は適応的であり、意味によって駆動され、世界との関わり方に結びついている。

AIと人間の知覚を一致させる

しかし、AIシステムは人間とは根本的に異なる方法で視覚入力を整理する——それは機械であるからではなく、訓練の範囲が狭いからだ。AIが猫と象を分類するよう訓練される場合、正しいラベルにつながる視覚パターンを学べばよく、それらの動物が互いにどう関係するか、あるいはより広い世界の中でどう位置づけられるかを学ぶ必要はない。

対照的に、人間はより広い文脈の中で学ぶ。象とは何かを学ぶとき、その表象を、動物・サイズ・生息地などこれまでに学んだあらゆる知識のタペストリーに織り込んでいく。AIはラベルの正確さのみによって評価されるため、訓練中は機能するが現実の世界では失敗する近道に頼ってしまうことがある。

表象アラインメントの問題とは、AIが人間と似た方法で情報を整理しているかどうかを指す。これは、AIシステムが人間の意図する結果や目標を追求するようにするという課題である価値アラインメントとは混同すべきでない。

人間の学習は新しい情報を既存の知識のウェブに埋め込むため、新旧の概念間の関係を研究・測定することができる。これは、表象アラインメントが解決可能な問題であり、より広範なアラインメント課題に取り組む一歩となり得ることを意味する。

表象アラインメントへのアプローチとして、AIシステムを心理学的課題において人間と同様に振る舞うよう構築し、研究者が表象を直接比較できるようにするというものがある。たとえば、人間が猫は象よりも犬に似ていると判断するならば、AIモデルも同じ判断に至るように構築することが目標となる。

有望な手法の一つとして、実験室で収集した人間の類似性判断をAIの訓練に用いるというものがある。こうした研究では、被験者に3つの画像を提示し、どの2つの物体がより似ているかを尋ねる――たとえば、マグはグラスとボウルのどちらに似ているか、といった具合だ。このデータを訓練に組み込むことで、AIシステムが物体間の関係を学ぶよう促し、人間の世界理解をより反映した表象が生まれる。

AD

視覚を超えたアラインメント

表象アラインメントは視覚システムを超えた領域でも重要であり、AI研究者も注目している。AIがリスクの高い意思決定をますます支援するようになる中、機械と人間が世界をどう表象するかの違いは、AIシステムが高い精度を示しているように見える場合であっても、現実の影響をもたらすようになる。たとえば、医療画像を解析するAIが、疾患の実際の視覚的徴候ではなく、画像のソースや繰り返し現れるアーチファクトを疾患と結びつけて学習してしまえば、それは明らかに問題である。

AIが必ずしも人間とまったく同じ方法で情報を処理する必要はないが、類似性・文脈・関係構造といった人間の知覚と認知から導かれた原則を用いてAIを訓練することは、より安全で正確かつ倫理的なシステムにつながり得る。


本記事は、リッチモンド大学 心理学助教授 Arryn Robbins氏、ニューメキシコ州立大学 心理学部 客員教員 Eben W. Daggett氏、ニューメキシコ州立大学研究担当副学部長兼心理学教授 Michael Hout氏らによって執筆され、The Conversationに掲載された記事「AI doesn’t ‘see’ the way that you do, and that could be a problem when it categorizes objects and scenes」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。