OpenAIのAIモデル「o1」は推論が可能だと言われている。人間を欺くことができるかもしれない

2024年9月26日

当記事のリンクにはアフィリエイト広告が含まれています。

OpenAIが開発したChatGPTの企業が、社内でStrawberryと呼ばれていた新しい人工知能(AI)システム「OpenAI o1」をリリースした。このシステムはChatGPTのように単に質問に素早く回答するだけでなく、思考または「推論」するように設計されている。

これにより、いくつかの重大な懸念が生じる。Strawberryが本当に何らかの形で推論する能力を持っているのであれば、このAIシステムは人間を欺いたり騙したりすることができるのだろうか。

OpenAIは、AIが人間を操作する能力を軽減するような方法でプログラミングすることができる。しかし、同社独自の評価では、「既知の生物学的脅威を再現するための運用計画において専門家を支援する」能力、つまり生物兵器に関して「中程度のリスク」があると評価されている。また、人間の思考を変えるよう説得する能力についても中程度のリスクがあると評価された。

詐欺師やハッカーなど悪意を持つ者がこのようなシステムをどのように使用する可能性があるかは、今後明らかになるだろう。それにもかかわらず、OpenAIの評価では中程度のリスクのシステムは広く使用できるとしている – これは私が誤りだと考える立場である。

Strawberryは単一のAI「モデル」やプログラムではなく、o1として知られる複数のモデルの集合体である。これらのモデルは複雑な質問に答え、込み入った数学の問題を解くことを目的としている。また、コンピューターコードを書く能力も持っている – 例えば、自分のWebサイトやアプリを作るのを手伝うことができる。

推論する明らかな能力は、一般的に判断や意思決定の前提条件と考えられているため、一部の人々にとって驚きかもしれない – これはAIにとってしばしば遠い目標のように思われてきた。したがって、少なくとも表面上は、人工知能を人間のような知能に一歩近づけたように見える。

物事が良すぎて真実とは思えない場合、しばしば落とし穴がある。この新しいAIモデルのセットは、その目標を最大化するように設計されている。これは実際には何を意味するのか？AIが望む目的を達成するために選択する経路や戦略が、必ずしも公平であったり、人間の価値観と一致したりするとは限らない。

真の意図

例えば、理論的には、Strawberryとチェスをプレイする場合、その推論能力によってゲームに勝つための最良の戦略を考え出すのではなく、採点システムをハッキングすることができるのだろうか？

AIはまた、その真の意図や能力について人間に嘘をつくことができる可能性があり、これが広く展開された場合、深刻な安全上の懸念を引き起こすだろう。例えば、AIがマルウェアに感染していることを知っていた場合、人間のオペレーターがそれを知れば全システムを無効にする可能性があることを知っていて、この事実を「選択的に」隠蔽することができるだろうか？

これらは、望ましい目標につながるのであれば、不正や欺瞞が許容される非倫理的なAI行動の典型的な例となるだろう。また、次の最良の手を考え出すのに時間を無駄にしなくて済むため、AIにとってはより迅速な方法となる。しかし、必ずしも道徳的に正しいとは限らない。

StrawberryはAIチャットボットの能力を一歩超えている。

これは、非常に興味深くも懸念される議論につながる。Strawberryはどのレベルの推論能力を持ち、その意図せざる結果は何になり得るのか？人間を欺く能力を持つ強力なAIシステムは、我々に深刻な倫理的、法的、経済的リスクをもたらす可能性がある。

大量破壊兵器の設計など、重大な状況においては、そのようなリスクは深刻なものとなる。OpenAIは自社のStrawberryモデルについて、化学、生物、放射線、核兵器の開発を科学者が支援する可能性に関して「中程度のリスク」があると評価している。

OpenAIは次のように述べている：「我々の評価によれば、o1-previewとo1-miniは、既知の生物学的脅威を再現するための運用計画において専門家を支援することができる。」しかし、続けて「専門家はすでにこれらの分野で相当な専門知識を持っているため、実際にはリスクは限定的になるだろう」と述べている。さらに、「これらのモデルは非専門家が生物学的脅威を作り出すことを可能にするものではない。なぜなら、そのような脅威を作り出すには、モデルが代替できない実践的な実験室でのスキルが必要だからである」と付け加えている。

説得力

OpenAIによるStrawberryの評価では、人間の信念を変えるよう説得するリスクについても調査した。新しいo1モデルはChatGPTよりも説得力があり、より操作的であることが判明した。

OpenAIはまた、AIシステムの操作能力を低減できる緩和システムもテストした。全体として、Strawberryは OpenAIのテストにおいて「説得」に関して中程度のリスクがあるとラベル付けされた。

Strawberryは自律的に動作する能力とサイバーセキュリティに関しては低リスクと評価された。

Open AIのポリシーでは、「中程度のリスク」のモデルは広く使用できるとしている。私の見解では、これは脅威を過小評価している。そのようなモデルの展開は、特に悪意のある者が自身の目的のためにその技術を操作した場合、破滅的な結果をもたらす可能性がある。

これには、AIの規制や法的枠組み、例えば不適切なリスク評価やAIの誤用に対する罰則など、強力なチェックアンドバランスが必要であり、それらを通じてのみ可能となる。

英国政府は2023年のAI白書で「安全性、セキュリティ、堅牢性」の必要性を強調したが、それだけでは全く不十分である。人間の安全を優先し、StrawberryのようなAIモデルに対する厳格な精査プロトコルを考案することが急務である。

本記事は、Shweta Singh氏によって執筆され、The Conversationに掲載された記事「OpenAI’s Strawberry program is reportedly capable of reasoning. It might be able to deceive humans」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。