Meta Platforms(以下、Meta)は2025年12月16日、音声処理のパラダイムシフトとなる画期的なAIモデル、「SAM Audio(Segment Anything Model for Audio)」を発表した。

これまで画像のセグメンテーション(切り抜き)分野で業界標準となっていた「Segment Anything Model (SAM)」の概念を音声領域へと拡張したこのモデルは、テキスト、視覚、時間的な指示(プロンプト)を用いて、複雑な混合音源から特定の「音」だけを自在に抽出・分離・除去することを可能にするのだ。

AD

音声編集の「Photoshop化」:SAM Audioの概要と衝撃

音声編集、特に「音の分離(Source Separation)」は、長らく専門的な技術と多大な労力を要する作業であった。特定の楽器を取り出す、雑踏の中から会話だけを抽出するといったタスクは、従来は専用のプラグインや周波数スペクトログラムの手作業による修正が必要だった。

SAM Audioは、このプロセスを根本から変革する。Metaが公開した「Segment Anything Playground」およびオープンソース化されたコードにより、ユーザーは以下の3つの方法で直感的に音を操作できるようになった。

1. マルチモーダル・プロンプティングによる制御

SAM Audioの最大の特徴は、単一の入力形式に依存しないマルチモーダル性にある。

  • テキストプロンプト(Text Prompting):
    「犬の鳴き声(Dog barking)」や「ギターの音(Guitar)」といった自然言語を入力するだけで、対象の音を分離・除去できる。これは近年の生成AIのトレンドに沿った機能だが、SAM Audioはこれを高精度な分離タスクに応用している。
  • ビジュアルプロンプト(Visual Prompting):
    ここが「Segment Anything」の真骨頂だ。動画内の「ギターを弾いている人」や「話している人物」をクリック(またはバウンディングボックスで指定)することで、その視覚情報に対応する音声を特定し、分離する。視覚と聴覚をAIレベルで統合したこの機能は、動画編集者にとって強力な武器となる。
  • スパンプロンプト(Span Prompting):
    「ここからここまで」という時間区間(タイムスタンプ)を指定することで、その期間に鳴っている特定の音を処理対象とする。これは、特定のタイミングで発生するノイズ(ドアが閉まる音など)を除去する際に極めて有効である。

2. 統合されたユニバーサルモデル

従来のAI音声分離ツール(例:DemucsやSpleeter)は、「ボーカル、ドラム、ベース、その他」といった固定されたカテゴリー(ステム)の分離に特化していた。対してSAM Audioは、特定の楽器や音の種類に限定されない「オープンボキャブラリー」な分離を実現している。つまり、学習データに含まれるあらゆる音響イベントが分離対象となり得る。

Perception EncoderとFlow Matchingの融合

Metaの研究チーム(Meta Superintelligence Labs)が公開した論文「SAM Audio: Segment Anything in Audio」によると、この高い汎用性は以下の技術的ブレイクスルーによって支えられている。

Perception Encoder Audiovisual (PE-AV)

SAM Audioの「耳」と「目」の役割を果たすのが、PE-AV(Perception Encoder Audiovisual)エンジンである。これは、以前発表された視覚向けモデル「Perception Encoder」を拡張したもので、動画のフレームごとの特徴量と音声表現を時間的に同期・整列させる。これにより、AIは「画面上のギターがいつ弾かれているか」を理解し、視覚的な手がかりを音声分離のガイドとして利用できる。

Diffusion Transformer (DiT) と Flow Matching

モデルのアーキテクチャには、画像生成AI「Stable Diffusion 3」や動画生成AI「Sora」でも採用されているDiffusion Transformer (DiT)が採用されている。しかし、従来の拡散モデル(Diffusion Model)ではなく、より効率的で高品質な生成が可能なFlow Matching(フローマッチング)という学習パラダイムを採用している点が重要だ。

  1. DAC-VAEによる圧縮: 音声波形はまず、DAC-VAE(Descript Audio Codec Variational Autoencoder)を用いて潜在空間(Latent Space)上の表現に圧縮される。
  2. ノイズからの再構築: モデルは、プロンプト(テキスト、視覚、時間)を条件として、ノイズが乗った状態からターゲットとなる「分離された音」と「残りの音(Residual)」を同時に予測・生成する。

この生成的なアプローチにより、従来のマスク予測型(スペクトログラムの一部を切り抜く方式)のモデルで発生しがちだった不自然なアーティファクト(異音)を低減し、より自然な音質の再構築に成功している。

AD

パフォーマンスとベンチマーク:SOTAの再定義

Metaは、SAM Audioの性能を評価するために、新たなベンチマークスイート「SAM Audio-Bench」と、参照音声なしで品質を評価できるAI審査モデル「SAM Audio Judge」を同時にリリースした。

競合モデルとの比較

論文データによれば、SAM Audioは以下の領域で既存の最高性能モデル(State-of-the-Art)を凌駕、あるいは匹敵する性能を示している。

  • 一般的な音響イベント(効果音など): 「SoloAudio」などの競合モデルに対し、約36%高い勝率(Net Win Rate)を記録。
  • 楽器分離(Instrument Separation): 汎用モデルでありながら、楽器分離に特化した「Demucs」のような専門モデルと比較しても、プロフェッショナルな音源において高い評価(主観スコア4.45 vs AudioShakeの4.28)を獲得している。
  • 処理速度: リアルタイムファクター(RTF)は約0.7を達成しており、実時間の音声よりも高速に処理が可能である。これはクラウドベースだけでなく、将来的にはオンデバイスでの動作も視野に入る軽快さだ。

評価指標の革新:SAM Audio Judge

特筆すべきは、従来のSDR(Signal-to-Distortion Ratio)などの信号ベースの指標に加え、人間の聴覚特性に近い評価を行う「SAM Audio Judge」を開発した点だ。これにより、数値上は正確でも「聞いてみると不自然」というAI音声処理特有の問題を回避し、実用的な品質向上を実現している。

業界と社会へのインパクト分析

SAM Audioの登場は、単なるツールの追加に留まらない。ITおよびクリエイティブ業界におけるいくつかの重要な変曲点を示唆している。

1. クリエイターエコノミーにおける「編集の民主化」

これまで、ポッドキャスト収録中の救急車のサイレン除去や、街頭インタビューの背景ノイズ低減は、iZotope RXのような高価なプロ用ソフトウェアと熟練した技術が必要だった。SAM Audioはこれをブラウザ上の「Playground」やオープンソースモデルとして提供することで、誰もが高度なオーディオエンジニアリングを行えるようにする。これは、TikTokやYouTube ShortsなどのUGC(User Generated Content)の品質を底上げするだろう。

2. アクセシビリティとヘルスケアへの応用

Metaは、米国の補聴器メーカー最大手であるStarkeyとのパートナーシップを明らかにしている。
SAM Audioの技術が補聴器に応用されれば、パーティー会場のような騒がしい環境下でも「目の前で話している人の声」だけを視覚情報(スマートグラスのカメラなど)と組み合わせて増幅し、周囲の雑音を消すことが可能になる。これは「カクテルパーティ効果」をAIで人工的に再現・強化する試みであり、聴覚障害者のQOLを劇的に向上させる可能性がある。

3. メタバースとXRデバイスへの布石

Metaにとって、音声技術はメタバース戦略の中核である。Ray-Ban MetaスマートグラスやQuestヘッドセットにおいて、ユーザーが見ている対象の音だけを強調する、あるいは仮想空間内で特定の音を分離して操作するといった体験は、没入感を高めるために不可欠だ。SAM Audioは、こうしたハードウェアに搭載される将来的なOSの基盤技術となる公算が高い。

AD

限界と課題:AIは「魔法」ではない

一方で、Metaは論文内でSAM Audioの限界についても率直に認めている。

  1. 音声プロンプトの非対応: 現時点では、「この音(音声ファイル)と同じ音を消して」といった、音声自体をプロンプトとする機能はサポートされていない。これは、特定の個人の声をクローニングして抽出するといった悪用(Deepfake音声の作成など)を防ぐための意図的な制限である可能性も考えられるが、機能としては欠落している。
  2. 類似音の分離: 合唱の中の特定の一人の声や、オーケストラの中の同種の楽器(第1バイオリンと第2バイオリンなど)を分離することは、依然として困難である。
  3. 幻覚(Hallucination): 生成AIモデルである以上、元の音源には存在しない微細な音を作り出してしまうリスクはゼロではない。

マルチモーダルAIの新たな地平

SAM Audioのリリースは、AIの進化が「テキスト」や「画像」から、より複雑な時間的連続性を持つ「音声」へと本格的に波及したことを象徴している。

GoogleやAdobeも同様の音声分離技術を開発しているが、Metaが「Segment Anything」という強力なブランドとオープンソース戦略を用いてエコシステムを構築しようとしている点は脅威である。開発者や研究者は、公開されたコード(GitHub)やウェイトを用いて、独自のアプリケーションやプラグインを開発し始めるだろう。

数年後、私たちが耳にするデジタルコンテンツの多くは、SAM Audioの系譜に連なる技術によって「整音」されたものになるはずだ。音のPhotoshop時代が、今まさに幕を開けたのである。


論文

参考文献

研究の要旨