あなたのデスクに置かれた高性能ゲーミングマウス。その主な役割は、ゲームや作業における精密なカーソル操作だ。しかし、もしそのマウスが、あなたの発する言葉や周囲の会話を密かに「聞き耳」を立てているとしたらどうだろうか。だがこれはSF映画の話ではない。カリフォルニア大学アーバイン校(UC Irvine)の研究チームが発表した「Mic-E-Mouse」と名付けられた研究は、この悪夢のようなシナリオが現実のものであることを、技術的に実証してしまったのだ。

AD

机の上の「耳」:Mic-E-Mouse攻撃の概要

「Mic-E-Mouse」は、高性能な光学式マウスに搭載されたモーションセンサーを利用して、音声を盗聴するサイドチャネル攻撃の一種である。攻撃の基本的な流れは、驚くほどシンプルだ。

  1. 音声が振動を発生させる: 人が話すと、その声(音波)は空気だけでなく、机のような固体にも微細な振動(音響振動)として伝わる。
  2. マウスセンサーが振動を検出: 高性能なマウスの光学センサーは、この机の表面の極めて小さな振動を、カーソルの微細な動きとして検出する。
  3. データを音声に変換: 攻撃者は、何らかの方法でマウスのセンサーデータを収集し、高度な信号処理と機械学習(AI)技術を用いて、その振動データから元の音声を再構成する。

研究チームが公開したデモンストレーション映像では、マウスが置かれた机の近くで話された音声が、実際に再構成されていく様子が示されている。その音声は完全にクリアとは言えないものの、話している内容を十分に理解できるレベルに達しており、この攻撃が決して理論上の空論ではないことを証明している。

なぜマウスが「マイク」になるのか?技術的背景を深掘り

一体どのような技術が、単なる入力デバイスであるマウスを、盗聴装置へと変貌させてしまうのだろうか。その鍵は、近年のゲーミングマウスが遂げた「高性能化」そのものにある。

高性能化がもたらした「副作用」

脆弱性の核心には、マウスの性能を示す2つの主要な指標、「DPI」と「ポーリングレート」が深く関わっている。

  • DPI (Dots Per Inch): マウスが1インチ移動した際に、どれだけ多くのドット(ピクセル)を認識できるかを示す解像度の指標。DPIが高いほど、より小さな動きを精密に検知できる。研究によれば、20,000 DPI以上の解像度を持つセンサーが、音響振動を捉えるのに十分な感度を持つとされる。
  • ポーリングレート: マウスが1秒間に何回コンピュータに位置情報を報告するかを示す頻度の指標。単位はHzで表される。一般的なマウスが125Hz〜1000Hzであるのに対し、高性能なゲーミングマウスでは4000Hz(4KHz)や8000Hz(8KHz)といった高速なものが登場している。この高い報告頻度が、人間の音声周波数帯域を捉えるために不可欠となる。

光学式マウスは、内蔵されたCMOSセンサー(カメラの一種)で、LEDやレーザー光で照らされた机の表面を毎秒数千回という猛烈なスピードで撮影し、その連続した画像の微細な変化(スペクルパターン)から移動方向と距離を計算している。Mic-E-Mouseは、この本来の目的のために極限まで高められた「眼の良さ」と「反応速度」を逆手に取り、ユーザーの意図しない「振動」という情報を拾い上げてしまうのだ。

振動から音声へ:信号処理とAIの魔法

もちろん、マウスセンサーが記録した生のデータは、そのままでは意味不明なノイズの塊に過ぎない。ここから明瞭な音声を取り出すために、研究チームは信号処理とAIを組み合わせた巧妙なパイプラインを構築した。

  1. データ収集とリサンプリング: マウスは動いていない時、電力消費を抑えるためにデータの報告を停止する。そのため、収集されるデータは時間的に不均一なものとなる。最初のステップでは、このバラバラなデータを数学的な処理(sincベースのリサンプリング)によって、一定間隔の均一なデジタル信号に変換する。
  2. ノイズ除去(ウィーナーフィルター): 次に、環境ノイズやセンサー固有のノイズを取り除くため、「ウィーナーフィルター」と呼ばれる信号処理技術を適用する。これにより、音声信号に関わる可能性のある成分が強調される。
  3. 音声再構成(AIモデル): 最後に、この攻撃の心臓部とも言える機械学習モデルが登場する。研究チームは、OpenAIの音声認識モデル「Whisper」に触発されたTransformerベースのニューラルネットワークを構築。ノイズが除去された振動データをこのAIに入力することで、元の音声波形を高精度に再構成することに成功した。

このパイプラインを経ることで、当初は聞き取れなかったノイズの塊が、意味のある言葉へと変換される。まさに現代の錬金術と言えるだろう。

AD

どのマウスが危ないのか?脆弱なデバイスの条件

読者が最も気になるのは、「自分のマウスは大丈夫なのか?」という点だろう。研究論文では、この攻撃に対して脆弱となりうる具体的な条件とデバイスが示されている。

脆弱性の鍵を握るセンサーとスペック

研究で主なターゲットとされたのは、台湾の半導体メーカーPixArt Imaging社が製造する高性能センサー「PAW3395」および「PAW3399」だ。これらのセンサーは、多くの主要メーカーのハイエンドゲーミングマウスに採用されている。

脆弱性の目安となるスペックは以下の通りだ。

  • センサー: PixArt PAW3395, PAW3399 または同等性能のセンサー
  • DPI: 20,000 DPI以上
  • ポーリングレート: 4,000Hz (4KHz) 以上

これらの条件を満たすマウスは、Mic-E-Mouse攻撃によって音声を傍受される潜在的なリスクを抱えていると考えられる。

【リスト】脆弱性の可能性があるゲーミングマウス一覧

研究論文の付録(Appendix B, Table VIII)には、上記の条件に基づき、脆弱性の可能性があると指摘された市販マウス26製品のリストが掲載されている。以下にその一部を抜粋する。

【注意】 このリストはあくまで研究上の指摘であり、これらの製品が直ちに危険であることを断定するものではありません。また、メーカーによるファームウェア更新などで将来的に対策が施される可能性もあります。

<特に脆弱性が高いと指摘されるモデル(8KHzまたは4KHz対応)>

  • Razer Viper 8KHz (PAW3399, 20,000 DPI, 8,000 Hz)
  • Darmoshark M3 (PAW3395, 26,000 DPI, 4,000 Hz)
  • Pulsar Gaming Gears X2H Mini (PAW3395, 26,000 DPI, 4,000 Hz)
  • VGN Dragonfly F1 (PAW3395, 26,000 DPI, 4,000 Hz)
  • G-Wolves Hati S Plus (PAW3399, 20,000 DPI, 4,000 Hz)
  • AtomPalm Hydrogen 2 (PAW3360, 12,000 DPI, 8,000 Hz)

<潜在的な脆弱性が指摘されるモデル(高DPI)>

  • Glorious Model O 2 (PAW3395, 26,000 DPI, 1,000 Hz)
  • Razer Basilisk V3 (PAW3399, 20,000 DPI, 1,000 Hz)
  • Razer DeathAdder V2 Pro (PAW3399, 20,000 DPI, 1,000 Hz)

リストにはRazer、Darmoshark、Pulsarといったゲーマーに人気のブランドが多数含まれており、この問題が一部の特殊な製品に留まらない、広範な影響を持つ可能性を示唆している。

想定される攻撃シナリオと現実的な脅威

この脆弱性は、具体的にどのように悪用されうるのだろうか。研究チームは、いくつかの現実的な攻撃シナリオを提示している。

標的はゲームやクリエイティブソフト

攻撃者がユーザーのPCにマルウェアを仕込む場合、最も怪しまれにくい潜入先は、ビデオゲーム画像・動画編集ソフトといった、もともと高性能マウスの精密なデータを正当に要求するアプリケーションだ。

これらのソフトウェアは、ユーザー体験を向上させるために、OSの標準的なマウス入力処理をバイパスし、より生の(raw input)に近い高頻度のデータを要求することがある。攻撃者は、こうしたソフトウェアの正規の通信機能に紛れ込ませて、収集したマウスデータを外部のサーバーに送信できる。ユーザーから見れば、ゲームがサーバーと通信しているだけに見えるため、攻撃を検知することは極めて困難だ。

Webブラウザ経由の攻撃は可能か?

研究では、WebブラウザのJavaScriptを利用してマウスデータを収集する可能性についても言及されている。ただし、現状の主要なブラウザは、マウスデータの更新頻度をディスプレイのリフレッシュレート(通常60Hzや144Hz)に同期させる制限を設けている。これは、音声解析に必要な数KHzのデータレートには遠く及ばないため、現時点でのWeb経由の攻撃は困難である。

しかし、研究者が開発者コンソールを有効にした際に一時的にデータレートが1KHzまで上昇する現象を発見したように、将来的なブラウザの仕様変更や新たな脆弱性の発見によっては、このシナリオが現実味を帯びる可能性も否定できない。

AD

研究が示す性能と限界

この攻撃は、どの程度の「実用性」を持つのか。研究結果は、その驚くべき性能と、同時に存在する限界を浮き彫りにしている。

どれくらい「聞こえる」のか?音声認識の精度

研究チームが自動音声認識システムを用いて再構成された音声の精度を評価したところ、データセットにもよるが、約42%から62%の精度で単語を認識できたという。これは、一言一句を完璧に再現できるレベルではないものの、会話のテーマや重要なキーワードを把握するには十分過ぎる精度だ。

さらに、16人の被験者による人間向けの評価では、単語誤り率(Word Error Rate)が16.79%という結果が出た。これは、再構成された音声の約83%が人間にとって正しく聞き取れることを意味し、この技術が実験室レベルを越えた実用性を持つことを示している。

環境による影響:机の材質や音量

攻撃の成功率は、環境にも大きく左右される。

  • 机の材質: 研究では、プラスチック、紙、段ボールといった異なる素材の上でテストが行われた。結果、プラスチックのような滑らかで硬い表面が最も高い精度を示し、段ボールのような柔らかく凹凸のある表面では精度が大幅に低下した。これは、振動が伝わりやすい材質ほど、攻撃が成功しやすいことを意味する。
  • 音量: 当然ながら、話者の声量が大きいほど、机の振動も大きくなり、音声の再構成精度は向上する。ささやき声のような小さな音を拾うのは、依然として困難なようだ。

私たちはどう対策すべきか?

この新たな脅威に対し、我々ユーザーはどのように身を守ればよいのだろうか。幸いなことに、対策は比較的シンプルだ。

最も簡単で効果的な対策:マウスパッド

研究チームが第一に挙げる最も効果的な対策は、布製やフォーム素材のマウスパッドを使用することだ。マウスパッドは音響振動を吸収・減衰させるクッションの役割を果たし、センサーが微細な振動を検知するのを物理的に妨げる。特に厚手で柔らかい素材のものが効果的だろう。

ソフトウェアとOSレベルでの対策

より根本的な対策として、OSレベルで特定の高リスクデバイス(高DPI・高ポーリングレートのマウス)からのデータアクセスを制限する、あるいは企業ITポリシーでそのようなデバイスの使用を禁止する(ブラックリスト化)といった方法が考えられる。また、マウスメーカー側がファームウェアのアップデートで、意図しない振動データをフィルタリングする機能を実装することも期待される。

デバイス選定における意識

全てのユーザーが8000Hzのポーリングレートや26,000 DPIの解像度を必要としているわけではない。自身の用途を考え、過剰なスペックを持つデバイスを避けるというのも、一つの賢明な選択と言えるかもしれない。

見えざるリスクとテクノロジーの未来

カリフォルニア大学アーバイン校による「Mic-E-Mouse」の研究は、我々の身近にあるテクノロジーが、開発者の意図を超えて全く新しい脆弱性の温床になり得るという事実を改めて突きつけた。特に、AI技術が従来では不可能だった微弱な信号からの情報抽出を可能にし、新たな攻撃ベクトルを生み出している点は注目に値する。

これは、かつて冷戦時代にKGBがアメリカ大使館に贈った「国章の盗聴器」を彷彿とさせる。 unsuspecting device(疑われることのないデバイス)を悪用するという点で、その手口は現代版のスパイ活動と言えるかもしれない。

幸い、この脆弱性は悪用が広まる前に研究者によって公にされ、対策も明確に示された。我々ユーザーは過度に恐れる必要はないが、テクノロジーの進化がもたらす光と影を正しく理解し、マウスパッド一枚を敷くといった簡単な自衛策を講じる意識を持つことが、これまで以上に重要になっている。あなたのデスクの上にあるデバイスは、もはや単なる道具ではないのかもしれない。


論文

参考文献