Gemini 3.5 Live Translateの「連続生成」とはどのような技術ですか？

発話中に音声ストリームを継続処理し、文脈理解と即時翻訳を動的に調整して同時通訳に近い滑らかな対話を実現する技術だ。

翻訳された音声に発話者の感情やニュアンスは反映されますか？

反映される。入力音声のトーンやピッチ、話すペースをリアルタイムに抽出し、出力音声にマッピングすることで自然な抑揚を維持する。

Google Meetでの多言語対応はどう変わりますか？

対応言語が70以上に拡充され、1つの会議内で2000以上の言語の組み合わせを同時に処理することが可能になる。

AI生成音声によるなりすましや偽情報への対策はありますか？

電子透かし技術「SynthID」を全生成音声に組み込み、人間かAIかの判別を可能にすることで安全性を担保している。

開発者はこのリアルタイム翻訳機能を自社アプリに導入できますか？

可能だ。Gemini Live APIを通じて提供されており、Grabなどの企業が既に実用化に向けたテストを開始している。

テクノロジー

Google、70以上の言語に対応するリアルタイム音声翻訳モデル「Gemini 3.5 Live Translate」を発表

Y Kobayashi2026年6月10日

約 7 分

この記事のポイント

何が起きた: Googleは、発話者の声調やピッチを維持したまま70以上の言語を継続的に翻訳する音声モデル「Gemini 3.5 Live Translate」を発表した。
なぜ重要か: ターン制翻訳による遅延を解消し、数秒の遅れで滑らかな対話を実現するため、ビデオ会議やモビリティサービスにおける多言語コミュニケーションの質を劇的に向上させる。
次に見るべき点: Google Meetでの一般提供時期や、SynthIDによる音声電子透かしが誤情報対策に対してどの程度有効に機能するかの検証結果。

Google、70以上の言語に対応するリアルタイム音声翻訳モデル「Gemini 3.5 Live Translate」を発表

Googleが発表した「Gemini 3.5 Live Translate」は、従来の機械翻訳が抱えていた遅延と文脈理解の課題に対して「連続生成」という手法で根本的なアプローチを行っている。これまで広く採用されてきた音声翻訳システムは、発話者が一つの文章を話し終えるのを待ってから翻訳処理を開始するターン制を採用していた。この方式は文全体の構造を完全に把握してから変換するため、翻訳の正確性を高める効果があった。反面、対話のテンポが損なわれ、会話の中に不自然な長い間が生じるという明確な技術的限界が存在した。

今回の新しいモデルは、発話が行われている最中にその音声ストリームを継続的に処理し、コンテキストの構築と即時翻訳のトレードオフを動的に調整する。発話の文脈を正確に理解するためにわずかな処理時間を確保しつつ、発話者の数秒後を一定の間隔で追いかける形で翻訳音声を出力する。これにより、人間の同時通訳者に近い滑らかな対話体験が可能になり、多言語間コミュニケーションの遅延による認知的な負荷を大幅に軽減している。

連続生成モデルにおいて技術的に最も困難なのは、後続の単語によって文全体の意味が反転した場合の処理である。例えば、動詞が文末に来る言語から英語へ翻訳する際、文脈が確定する前に翻訳を開始すると誤訳が発生する確率が高まる。Gemini 3.5 Live Translateは、文脈の不確実性が高い場合は出力のバッファリング時間を数ミリ秒単位で微調整し、意味が確定した段階で即座に音声を合成する動的制御を備えている。Googleは約20年前から翻訳技術の開発を推進しており、現在では自社製品群を通じて毎月1兆語以上の翻訳を処理している。今回の技術的進歩は、その膨大なデータ処理の知見がリアルタイムの音声ストリーミング領域に結実した結果である。騒音の多い環境下でも入力音声を正確に拾い上げ、適切に処理するノイズ耐性が強化されている点は、実際の利用シーンにおける実用性を大きく高めている。

発話者の声質と感情ニュアンスの維持

Gemini 3.5 Live Translateのもう一つの技術的な特徴は、入力言語を変換する処理と同時に、発話者の声のトーンやピッチ、話すペースを翻訳音声に反映させる能力である。一般的なテキスト読み上げエンジンを用いた翻訳処理では、出力される音声が機械的で平板になりがちであり、発話者が本来伝えたかった感情や、特定の単語に対する強調のニュアンスが欠落してしまうという問題が指摘されていた。

本モデルは入力音声の音響的特徴をリアルタイムに抽出し、出力言語の音声合成パラメータにマッピングする処理を行っている。元の話者の抑揚や声の高さが維持された自然な音声が連続的に生成される仕組みが採用されている。言語構造の異なる言語間でイントネーションの起伏を正確に引き継ぐことは、機械学習モデルにとって極めて計算負荷の高い処理である。この仕組みは、国際的なビジネスの交渉や、感情を伴う日常的な対話において、言葉の裏にある細かいニュアンスを相手に正確に伝達する上で大きく貢献する。デモ映像で公開された動画のリアルタイム吹き替えや複数言語でのプレゼンテーション翻訳において、その精度の高さが明確に示されている。

Googleエコシステム全体への統合と開発者向け提供

この新しい翻訳モデルはGoogleの主要なプラットフォームに順次組み込まれていく方針が示されている。エンタープライズ向けのビデオ会議ツールであるGoogle Meetでは、サポート言語が従来の5言語から70以上の言語へと大幅に拡充された。1つの会議内で英語、中国語、スウェーデン語など2000以上の言語の組み合わせが同時に処理可能となる。現在はGoogle Workspaceの一部エンタープライズ顧客向けのプライベートプレビュー段階であるが、年内には広範な一般提供が予定されている。グローバル展開を行う企業において、社内の言語障壁による情報伝達の遅れや誤解を防ぐための強力なインフラとなる。

スマートフォン向けのGoogle翻訳アプリ（AndroidおよびiOS）にも順次展開されている。Android向けには「リスニングモード」が新たに導入され、イヤホンがない状況でも、スマートフォンを耳に当てるだけで翻訳音声を直接聞くことができる。プライバシーを確保しつつ周囲の音声を即座に理解できるこのインターフェースは、スマートフォンのハードウェア特性を活かした実用的な実装である。

同時に、Gemini Live APIやGoogle AI Studioを通じて開発者向けのパブリックプレビューも開始されている。リアルタイム音声ストリーミングの自社開発には、WebRTCをはじめとする複雑な通信プロトコルの制御や、ネットワークの揺らぎに対するレイテンシの最適化など、極めて高度な技術力が要求される。Agora、Fishjam、LiveKit、Pipecatなどの音声プラットフォーム企業は、既にこのAPIを自社のインフラに統合した。これにより、サードパーティの開発者は複雑な通信制御を外部に委譲し、翻訳機能そのもののユーザー体験設計に集中することが可能となる。

配車アプリ大手のGrabは、月に1000万回発生するドライバーと乗客間の通話を円滑にするため、このモデルのテストを開始している。多国籍な利用者が交差するモビリティ空間において、リアルタイムの翻訳機能は単なる利便性の向上にとどまらず、配車ミスの削減や安全確保といった業務効率の改善に直結する。外部の企業が容易に多言語対応のコミュニケーションツールを開発できる環境が整いつつあることは、ソフトウェア業界全体に対する強い影響力を持つ。

SynthIDを活用した安全性の担保

人間に極めて近い自然な音声生成技術が普及する一方で、ディープフェイクやなりすましなど、悪意のある利用への懸念も高まっている。これに対する技術的な安全策として、GoogleはGemini 3.5 Live Translateによって生成されるすべての音声に対して、電子透かし技術である「SynthID」を組み込んでいる。

この電子透かしは人間の耳には聞こえない周波数帯域などの形で音声の波形データに直接織り込まれており、現在のところ容易に除去することは不可能とされている。システム側でこの透かしを検出することで、その音声が人間による発話かAIによって生成されたコンテンツかを判別できる。生成AIの出力に対する説明責任を果たし、ディープフェイクを用いた詐欺や偽情報の拡散を防ぐ狙いがある。

精巧な音声モデルがAPIを通じて広く利用可能になることは技術的なイノベーションを促進する一方、セキュリティ面でのリスクも同時に増大させる。SynthIDのような堅牢な検出メカニズムの実装は、社会的要請に応えるための必須要件となっている。今後、こうした透かし技術が他社のプラットフォームでも共通して検出可能な業界標準として確立されていくかどうかが、AI生成コンテンツの信頼性を担保するための次の焦点となる。

Sources:blog.google