テクノロジーと科学の最新の話題を毎日配信中!!

優れた検索エンジンとは?AIの時代における検索の活用法を示す4つのモデル

The Conversation

2025年3月26日

毎日、ユーザーは検索エンジンに数百万もの質問を投げかけている。私たちが受け取る情報は、私たちの意見や行動を形作ることがある。

私たちはそれらの影響力をしばしば意識していないが、インターネット検索ツールは私たちの問い合わせに応じてWebコンテンツを分類し、ランク付けしている。これは確かに私たちがより多くのことを学ぶ助けになる。しかし検索ツールは、質の低い情報や誤情報を返すこともある。

最近、大規模言語モデル(LLM)が検索の分野に参入している。LLMは検索エンジンではないが、商用Web検索エンジンはLLMベースの人工知能(AI)機能を自社製品に組み込み始めている。MicrosoftのCopilotとGoogleのAIによる概要はこのトレンドの例である。

AI強化型検索は便利なものとして市場に出回っている。しかし、ここ数十年の間に検索の性質に起きた他の変化と合わせて、次の疑問が生じる:優れた検索エンジンとは何か?

私たちの新しい論文(AI and Ethics誌に掲載)では、この点を探求している。可能性をより明確にするために、私たちは4つの検索ツールモデル、すなわち、カスタマーサーバント(Customer Servant)、図書館員(Librarian)、ジャーナリスト(Journalist)、教師(Teacher)を想定している。これらのモデルは検索ツールの設計要素を反映しており、緩やかに対応する人間の役割に基づいている。

スポンサーリンク

検索ツールの4つのモデル

カスタマーサーバント

顧客サービス業の従業員は、人々が要求するものを提供する。誰かが「ハンバーガーとフライドポテト」を注文した場合、その要求がその人にとって良いかどうか、あるいは実際には他のものを求めているのかどうかを問いただすことはない。

私たちがカスタマーサーバントと呼ぶ検索モデルは、1950年代に導入された最初のコンピュータ支援情報検索システムにやや似ている。これらは、キーワード間の関係を定義するシンプルな論理ルール(例:「猫 NOT 犬」)を使用したブール検索に一致する、ランク付けされていない文書セットを返した。

図書館員

その名前が示すように、このモデルは人間の図書館員にやや似ている。図書館員も人々が要求するコンテンツを提供するが、常に問い合わせを額面通りに受け取るわけではない。

代わりに、位置、時間、ユーザーの対話履歴などの文脈情報からユーザーの意図を推測して「関連性」を目指す。結果をランク付けしリソースのリストを提供する1990年代後半から2000年代初頭の古典的なWeb検索エンジン(初期のGoogleを思い浮かべてほしい)がこのカテゴリーに含まれる。

ジャーナリスト

ジャーナリストは図書館員を超えている。人々が知りたいことに対応することが多いが、ジャーナリストはその情報を慎重に選別し、時には虚偽を取り除き、さまざまな公の見解を調査する。

ジャーナリストは人々により良い情報を提供することを目指している。ジャーナリスト検索モデルも同様のことを行う。追加情報を提供したり、より均衡のとれた視点やパースペクティブのリストを提供するために検索結果を多様化したりすることで、結果の表示をカスタマイズする場合がある。

教師

ジャーナリストと同様に、人間の教師も正確な情報を提供することを目指している。しかし、彼らはさらに多くの制御を行使するかもしれない:教師は誤った情報を徹底的に暴き、学習者をあまり知られていないものも含めた最高の専門家ソースに導くかもしれない。彼らは、虚偽または表面的と判断した主張について詳しく説明することを拒否することさえある。

CopilotやGeminiなどのLLMベースの会話型検索システムは、ほぼ同様の役割を果たす場合がある。プロンプトに対して合成された応答を提供することで、古典的なWeb検索エンジンよりも提示される情報に対してより多くの制御を行使する。

また、健康、政治、環境、歴史などのトピックに関する問題のある見解を明示的に否定しようとする場合もある。「誤情報を促進することはできません」や「このトピックはニュアンスが必要です」と返答するかもしれない。一部のLLMは、何が本物の知識であり何が啓発的でないかについて強い「意見」を伝える。

最良の検索モデルはない

私たちは、各検索ツールモデルには長所と短所があると主張する。

カスタマーサーバントは説明性が高い:すべての結果はクエリ内のキーワードに直接結びつけることができる。しかし、この精度はシステムを制限してもいる。使用される正確な用語を超えた、より広範または深い情報ニーズを把握することができないからだ。

図書館員モデルは、クリックに関するデータなどの追加信号を使用して、ユーザーが実際に探しているものによりマッチしたコンテンツを返す。しかし、これらのシステムはバイアスを導入する可能性がある。最善の意図があったとしても、関連性やデータソースに関する選択は、根底にある価値判断を反映する可能性がある。

ジャーナリストモデルは、科学から世界情勢まで、ユーザーがトピックをより完全に理解できるよう支援することに重点を置いている。事実に基づく情報とさまざまな視点をバランスよく提示することを目指している。

このアプローチは、世界的なパンデミックのような危機の瞬間において特に有用である。誤情報に対抗することが重要な場面だ。しかし、トレードオフがある:社会的利益のために検索結果を調整することは、ユーザーの自律性に関する懸念を引き起こす。温情主義的に感じられる可能性があり、より広範なコンテンツ介入への道を開く恐れがある。

教師モデルはさらに介入主義的である。「判断」する良い情報へとユーザーを導き、有害または虚偽と見なすコンテンツへのアクセスを批判または抑制する。これは学習と批判的思考を促進することができる。

しかし、コンテンツのフィルタリングやランク下げは選択肢を制限する可能性もあり、「教師」(アルゴリズムかAIか)が偏っていたり単に間違っていたりする場合には警告信号となる。現在の言語モデルには、人間の価値観に合わせるための「ガードレール」が組み込まれていることが多いが、これらは不完全である。LLMは、もっともらしく聞こえるナンセンスをハルシネートしたり、実際に聞きたい視点を提供することを避けたりする可能性もある。

スポンサーリンク

警戒を怠らないことが重要

目的によって異なるモデルを好む場合がある。例えば、教師のようなLLMが膨大な量のWeb素材を合成・分析するため、良書、世界情勢、栄養などのトピックについて、より意見の強い視点が欲しい場合がある。

しかし、時には特定のトピックについて検証可能なソースを自分で探索したいこともあるだろう。また、陰謀論などのコンテンツのランクを下げるよう検索ツールに望む場合もあるかもしれない。

LLMは間違いを犯し、自信を持って誤解を招く可能性がある。これらのモデルが検索においてより中心的になるにつれて、私たちはその欠点を認識し、情報がどのように提供されるかについて技術企業に透明性と説明責任を求める必要がある。

検索エンジンの設計と選択において適切なバランスを取ることは容易な作業ではない。制御が多すぎると個人の選択と自律性が損なわれるリスクがあり、少なすぎると害が未チェックのままになる可能性がある。

私たちの4つの倫理モデルは、堅固な議論のための出発点を提供する。検索エンジンをいつどのように倫理的かつ責任をもって使用できるかを定義するためには、さらなる学際的研究が不可欠である。


本記事は、メルボルン大学コンピュータ・情報システム学部AI・デジタル倫理センター デジタル倫理上級講師Simon Coghlan氏、RMIT大学 コンピューティング・テクノロジー学部 上級講師Damiano Spina氏、RMIT大学 情報アクセス・検索学部 教授Falk Scholer氏、メルボルン大学法学博士候補生Hui Chia氏らによって執筆され、The Conversationに掲載された記事「What makes a good search engine? These 4 models can help you use search in the age of AI」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする