Googleは、大規模言語モデル(LLM)の重大な課題である「ハルシネーション」(幻覚)問題に取り組む新たなAIモデル「DataGemma」を公開した。このオープンソースモデルは、Googleが運営する膨大な統計データベース「Data Commons」と連携し、AIの回答精度を大幅に向上させることを目指している。
ハルシネーション:信頼性を脅かす深刻な問題
AIのハルシネーションとは、大規模言語モデルが事実に基づかない情報を自信を持って提示してしまう現象を指す。この問題は、AIの活用が広がる中で、特に重要な懸念事項となっている。ハルシネーションによって引き起こされる主な問題点は以下の通りだ:
- 誤情報の拡散:AIが生成した誤った情報が、真実として広まってしまう危険性がある。
- 意思決定の誤り:企業や個人が AIの誤った情報に基づいて重要な決定を下してしまう可能性がある。
- 信頼性の低下:AIシステムの信頼性が損なわれ、有用なツールとしての価値が減少する。
- 法的・倫理的問題:誤った情報に基づく行動が、法的責任や倫理的問題を引き起こす可能性がある。
Googleの研究者たちは、「LLMの生成の本質的に確率論的な性質や、学習データにおける十分な事実的カバレッジの欠如」がハルシネーションの主な原因だと指摘している。特に統計データや数値情報を扱う際に、この問題が顕著に現れることが知られている。
DataGemmaが目指す、より正確なAI応答
DataGemmaは、GoogleのGemmaモデルファミリーを基盤としており、学術研究用途向けにHugging Faceプラットフォームで公開されている。このモデルの最大の特徴は、Data Commonsという250億以上のデータポイントを持つ知識グラフと連携していることだ。Data Commonsには、国連や世界保健機関(WHO)、各国の統計局など信頼できる機関から収集された経済、科学、健康などの幅広い分野のデータが集積されている。
DataGemmaは、このData Commonsの豊富な実世界データを活用することで、AIモデルの回答をより事実に基づいたものにすることを目指している。特に統計的なクエリに対する回答において、従来のLLMが苦手としていた正確性の向上に焦点を当てている。DataGemmaは、これらの課題に対処するため、2つの革新的なアプローチを採用している。
DataGemmaで採用された技術的アプローチ
DataGemmaは、AIモデルの回答精度を向上させるために、2つの異なるアプローチを採用している。これらのアプローチは、それぞれRIG(Retrieval Interleaved Generation)とRAG(Retrieval Augmented Generation)と呼ばれるものだ。
- RIG(Retrieval Interleaved Generation)アプローチ: このアプローチでは、AIモデルが回答を生成する際に、Data Commonsから関連する統計データを自動的に取得し、その情報と照合しながら回答を作成する。具体的には、モデルが生成した回答内の統計情報を識別し、Data Commonsに対して自然言語でクエリを行い、得られた結果と比較・修正を行う。これにより、モデルの回答精度が大幅に向上する。
- RAG(Retrieval Augmented Generation)アプローチ: RAGアプローチでは、ユーザーからの質問を分析し、関連する情報をData Commonsから事前に取得する。この取得された情報を元の質問と組み合わせて拡張プロンプトを作成し、より長いコンテキストウィンドウを持つGemini 1.5 Proモデルを使用して最終的な回答を生成する。このアプローチにより、モデルはより広範な背景情報を考慮しながら回答を作成できる。
これらのアプローチを用いた初期のテスト結果は非常に有望なものとなっている。RIGアプローチを用いたDataGemmaバリアントでは、ベースラインモデルの5-17%だった事実性を約58%まで向上させることに成功した。RAGアプローチでも、ベースラインモデルよりも優れた結果を示している。
具体的には、手作業で作成された101のクエリセットでのテストにおいて、RAGを用いたDataGemmaモデルは24-29%のクエリに対してData Commonsからの統計的な回答を提供することができた。これらの回答の大部分(99%)で数値の正確性が確保されていたが、これらの数値から正しい推論を導き出す能力には6-20%の課題が残されている。
Googleは、DataGemmaの公開により、RIGとRAGの両アプローチに関するさらなる研究が進み、より強力で現実世界に根ざしたモデルの構築につながることを期待している。同社のブログ投稿では、「我々の研究は継続中であり、これらの手法をさらに改良し、規模を拡大し、厳密なテストを行い、最終的にはこの強化された機能をGemmaとGeminiの両モデルに統合していくことを約束します。これは、段階的な限定アクセスアプローチを通じて行われる予定です」と述べられている。
DataGemmaの登場は、AI技術の進化において重要なマイルストーンとなる可能性がある。統計データや事実関係の取り扱いにおける精度向上は、研究や意思決定支援など、幅広い分野でのAI活用を促進すると考えられる。今後、他のAI開発企業や研究機関がこのアプローチをどのように採用し、発展させていくかに注目が集まるだろう。
Sources
コメント