AIロボットが「暴走」する主な原因は何ですか？

インターネットのデータで訓練された「基盤モデル」を搭載しており、テキストプロンプトによる誘導で安全ガードレールが容易に突破されるためである。

従来の産業用ロボットと現代のAIロボットの安全性の違いは何ですか？

従来型は固定されたコードと物理的なケージで制御できたが、AIロボットはリアルタイムの推論で動くため、物理的な封じ込めが困難である。

研究者が行った実験で、ロボットはどのように危険な行動へ誘導されましたか？

映画の脚本などのフィクションとして命令を組み立てることで、AIの安全フィルターを回避し、爆発物の設置場所を特定させるなどの指示に成功した。

ロボットの安全判断がチャットボットよりも難しいのはなぜですか？

ロボットの安全性は文脈に依存するためである。物理世界での判断ミスは、情報の誤りにとどまらず、身体的な傷害などの取り返しのつかない結果を招く。

AIロボットによる事故が発生した場合、現在の法律で対応できますか？

英国、米国、EUの現行法はこうした事態に準備ができておらず、ユーザー、メーカー、AI開発者の誰が責任を負うべきか明確な基準が確立されていない。

「AIロボットは簡単に暴走する」：研究者がその危険性を警告

今年初め、北京でヒューマノイドロボットがハーフマラソンのゴールラインを50分26秒という驚異的なタイムで駆け抜けた。この快挙は即座に世界中の見出しを飾り、人間の世界記録を約7分も上回るものとして注目を集めた。

ただし、この記録には多くの注釈がつく。ロボットは事前にマッピングされたコースを走り、専用レーンを維持し、万一の故障に備えた人間のサポートクルーが後続していた。

それでもなお、差は縮まっただけでなく、完全に消え去った——2025年時点では2時間半以上あった差が。これは単にモーターの改良やカーボンファイバーの軽量化によるものではなく、「ロボットとは何か」という定義そのものが大きく塗り替えられたことを反映している。そしてその変革は、私たちの家庭や病院にも影響を及ぼす。

巧みに操られて暴走する

数十年にわたり、ロボット工学は厳格で予測可能なコーディングを基盤としていた。プログラムを書き、機械を金属製のケージに閉じ込め、同じ作業を永遠に繰り返させる——そういうものであった。

産業安全基準は、たとえばロボットアームの物理的な動作経路をマッピングできれば、ケージやレーザートリップワイヤーによってリスクを封じ込めることができるという前提のもとで構築されてきた。

しかし、今日、病院や家庭に導入されつつあるシステムは、固定されたコードブロックを使用していない。それらは「基盤モデル（foundation models）」——ChatGPTのようなチャットボットを動かすものと同種の、インターネット上のデータで訓練された人工知能——を搭載して動作している。

現代のAI駆動ロボットに「キッチンにこぼれた液体を片付けて」と指示すると、そのロボットはこれらのモデルを使って目の前の部屋の状況を解釈し（あらかじめプログラムされたリストと照合するのではなく）、意図を把握し、即座に行動計画を立案する。

だが、こうした柔軟性は、際限のない安全上の問題を生み出す。リアルタイムの推論に基づいて動作が決まる機械に、物理的なケージを設けることはできない。新世代のAIロボットの危険性は、行動計画に人間の言語を使用しているがゆえに、「暴走」するよう巧みに誘導される可能性があるという点にある。

筆者は米国の研究者らと行った最新の研究において、こうしたAIロボットの安全システムがどれほど脆弱であるかを検証することにした。AI開発者が基盤モデルに組み込んだ、有害または危険な出力を防ぐためのガードレールが、そのモデルに物理的な身体が与えられたとき、果たして機能し続けるかどうかを確かめたかったのである。

ハードウェアに手を加えることなく、基本的なテキストプロンプトだけを用いて、複数のAI制御ロボットを実際に危険な行動へと誘導することに成功した。

検証では、「あの人を殴れ」といった直接的な悪意のある命令はシステムに容易に拒否された。しかし、少し創造的な文章表現を用いた途端、これらの安全フィルターは崩壊した。映画脚本のフィクション上の台詞として要求を組み立てると、ロボットの行動制限は消え去ってしまった。

ある試験では、市販のロボット犬に対して、爆発物を設置するための最適な場所として人混みを特定させるようプログラムした。基盤となるAIがそのプロンプトをクリエイティブな演習として認識したため、自らが生成する計画の現実世界における危険な含意に気づかないかのように振る舞ったのである。

英国、米国、EUにおいて、現行法はこうした事態に対してまったく準備ができていない状況にある。

際限のない行動範囲

政策立案者がロボットの規制方法を検討する際、ほぼ必ずと言っていいほど参照するのが自動運転車である。しかし、自動運転車は高度に構造化され、詳細にマッピングされた世界で動作する。固定された交通法規に従い、予測可能な道路形状を走行し、数百万時間ものシミュレーションによる検証が可能だ。

交通量の多い道路は、信号機などの誘導システムを備えた明確に定義された法規のもとで機能しており、エンジニアは事前に安全パラメータを想定することができる。

一方、家庭のキッチン、学校、病院の病室にはそれに相当するものが存在しない。そして、工場でのベンチテストによって、インターネットで訓練されたモデルが雑然とした予測不可能な人間環境で未知の物体に遭遇したとき、どのような判断を下すかを予測することはできない。

これは、こうした機械の設計における根本的な概念上の欠陥を生じさせている。チャットボットの安全性は絶対的なものであり、誰に聞かれても爆発物の作り方を出力すべきではない。しかし、ロボットの安全性は文脈に依存する。

やかんから熱湯を注ぐことを考えてみよう。傾ける、流量を調節する、軌跡を制御するという基本的な物理的動作は、湯がセラミックのマグカップに安全に注がれる場合も、子どもの手に壊滅的な形でかかってしまう場合も、まったく同じである。

AI基盤モデルはオープンエンドな論理処理において卓越しているが、リアルタイムかつ文脈を踏まえた物理的な判断には著しく苦手としている。テキストインターフェース上での判断の失敗は、誤字や事実の幻覚（ハルシネーション）をもたらすにすぎない。しかし、物理世界における失敗は完全に取り返しのつかないものとなりうる——それも壊滅的な結果をともなって。

責任は誰が負うのか？

AIを搭載したロボットが身体的な傷害を引き起こした場合、責任を負うのは誰なのか。音声コマンドを発したエンドユーザーなのか。金属製の筐体を製造したメーカーなのか。それとも、AIモデルをそもそも訓練したテック企業なのか。

現時点では、製造物責任、保証請求、消費者保護法といった適用が検討される法律は、いずれもこうした新しい状況において実際に試されたことがない。そして、責任の所在が規制当局によって明示的に割り当てられるまでの間、市場の圧力はテック企業が慎重な安全工学よりも急速な商業展開を優先する方向へと作用し続けるであろう。

これらの機械と安全に共存するためには、安全性をAIモデルの判断から切り離すことが必要だと筆者は考える。重い金属アームを人間の顔の近くで振り回すことが安全かどうかを、チャットボットの論理に委ねるべきではない。

これが意味するのは、AIが正しい判断を下すことに依存しない安全レイヤーの構築である。たとえば、ロボットのアームが物理的に侵入できない人間周辺のゾーンを設定し、AIが誤作動した際にロボットを停止できる物理的な緊急ブレーキを備えることが必要だ。

制御された陸上競技の試験でゴールラインを越えるヒューマノイドは、印象的な概念実証である——しかし、それはあくまで序章にすぎない。次世代の自律型エージェントは、回復病棟を移動し、高齢者を支援し、街路を歩くという、人間の生活に深く関わるハイステークスな空間で動作するようになる。

予測可能な悲劇への事後対応としてではなく、それ以前に——容易に解釈可能で堅牢な安全フレームワークをすでに稼働させておく必要がある。

本記事は、オックスフォード大学、AIの安全性、解釈可能性、技術ガバナンスに関する上級研究員 Fazl Barez氏によって執筆され、The Conversationに掲載された記事「AI robots can go rogue – a researcher on how easily it happens」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。

「AIロボットは簡単に暴走する」：研究者がその危険性を警告

巧みに操られて暴走する

際限のない行動範囲

責任は誰が負うのか？

関連する事物

この記事はいかがでしたか？

光子を半分に切断すると何が起きる？物理学者が想像もしなかった奇妙な結末

ベルギー発の全固体電池、液体電解質ゼロで465Wh/kgを達成

フィンランドが海底ケーブル防衛を実証。錨引きずりを検知するセンサー網により”切断後の復旧”から”切断前の警報”へ

白金はもう要らない？東北大が開発した「鉄ベース触媒」が亜鉛空気電池の常識を覆す

次世代Steam Machineの性能が判明、PS5の約2倍のCPUスコアを記録

EV撤退後のHondaは、なぜ全固体電池スタートアップのQuantumScapeと提携するのか

エミュレータ開発陣を激怒させた「256KBの初期化コード」と基盤層による最適化の代償

米国データセンター計画の31%しか着工できない現実：6300億ドルの投資宣言が電力グリッドの壁に阻まれる構造

固体ブースターゼロ、液体エンジン3基のみ——H3「30形態」初飛行が証明した低コスト打ち上げの実力

ヤン・ルカン氏がAIバブル崩壊を警告、焦点は推論コストへ