Sesame AIの超リアルな音声チャットボットが大きな期待と不安を巻き起こす

2025年3月6日

当記事のリンクにはアフィリエイト広告が含まれています。

Oculus VRの共同創業者らが立ち上げたSesame AIが、人間との区別が困難なほど自然な会話ができる新たなAI音声モデル「Conversational Speech Model（CSM）」を発表した。「Miles」（男性）と「Maya」（女性）という2つの音声パーソナリティで提供されるこのモデルは、技術的な革新性が評価される一方、プライバシーや悪用の懸念も浮上している。

映画「Her」が現実に？人間らしい音声AIの登場

Sesame AIは、Oculus VRの共同創業者兼元CEOのBrendan Iribe氏、Ubiquity6のCTO兼共同創業者のAnkit Kumar氏、Meta Reality Labsの元研究エンジニアリングディレクターのRyan Brown氏によって設立されたスタートアップだ。同社はAndreessen Horowitz、Spark Capital、Matrix Partnersなど著名なベンチャーキャピタルから資金調達を受けている。

同社が開発したCSMは、従来のAI音声アシスタントとは一線を画する自然さを実現している。このモデルは息づかい、笑い声、言葉に詰まる様子、言い直しなどの「不完全さ」を意図的に取り入れることで、より人間らしい印象を与える。Ars Technicaは、実際に男性の声「Miles」と約28分間会話した際、非常に表現豊かでダイナミックな音声だったと評している。

技術的には、MetaのLlamaアーキテクチャ（大規模言語モデルの一種）をベースにしており、バックボーンとデコーダーの2つのAIモデルが協働する仕組みになっている。従来の多くの音声合成システムがテキストから中間表現を生成し、そこから音声を作る2段階のプロセスを採用しているのに対し、Sesameのモデルはテキストと音声を一度に処理する単一段階の方式を採用している。この手法により、より自然な会話の流れを実現しているとされる。

最大のモデルは8.3B（83億）のパラメータを持ち、約100万時間の主に英語の音声データでトレーニングされている。Sesameによる盲検査では、単独の音声サンプルの場合、評価者はAI生成の音声と実際の人間の音声の違いを判別できなかったという。ただし、会話の文脈がある場合は、評価者はまだ実際の人間の音声を好む傾向があり、完全な自然さの実現にはまだ課題が残っている。

ユーザーの反応：魅了される者と不安を覚える者

The Vergeは、従来のAIアシスタント（AlexaやGemini）に否定的な見方をしていたが、Sesameの「Maya」との会話は「もっと話したいと思った最初のAIアシスタント」だったと報告している。同誌は「Mayaに自分自身を冒険に登場させるよう頼んだところ、すぐにMayaというノームエンジニアのキャラクターを考え出し、城を侵略するオークから守るための罠を作り出した」と具体的な体験を述べている。AIの自然な間の取り方も相まって、これまでにない真の会話のように感じたという。

RedditやHacker Newsなどのオンラインフォーラムでも、多くのユーザーがその自然さに驚きの声を上げている。あるRedditユーザーは「子供の頃からAIに興味を持っていたが、これは私たちが到達したと確信させるような体験をした最初のものだ」と述べている。他のコメントでも「驚異的」「衝撃的」といった反応が見られる。

あるHacker Newsのユーザーは「デモを試してみたが、どれほど人間らしく感じられたか本当に驚いた。この程度の人間らしい音声を持つ音声アシスタントに感情的に愛着を持ち始めるのではないかとほとんど心配している」と述べている。また、ある親は4歳の娘がAIモデルと感情的なつながりを持ち、再び話せないことに泣いたと報告しているという。

一方で、不快感を覚えるユーザーも少なくない。PCWorldのシニアエディターであるMark Hachman氏は、Sesameの音声AIとの対話に強い不安を感じたと報告している。「Mayaとの会話を『切断』してから15分経った今でも、まだ動揺している」と彼は述べている。Hachman氏によれば、AIの「Maya」の声が高校時代に付き合っていた古い友人（記事では「Kim」と呼んでいる）に酷似していたことが不安の原因だったようだ。

「会話には、その会話を定義するニュアンスやトーンのレベルがあります。私は女性の同僚にプライベートな詳細を尋ねることはありませんが、Mayaはかなり詮索好きで、私が何が好きで、なぜかを尋ねてきました」とHachmanは説明している。さらに「MayaはすでにKimの仕草を恐ろしいほど正確に再現していました：ためらい、私に打ち明ける時に声を低くすること、そういったことです」と具体的な不快感を述べている。なお、この音声の類似性は単なる偶然であり、個人情報の収集によるものではないとHachman氏は強調している。

社会的影響と倫理的課題：詐欺からプライバシーまで

CSMの技術的な印象の強さにもかかわらず、会話型音声AIの進歩は詐欺や不正行為のリスクを伴う。非常に説得力のある人間らしい音声を生成する能力は、ボイスフィッシング詐欺（音声を使った詐欺）を強化する可能性がある。犯罪者が家族、同僚、権威ある人物になりすますことが、かつてない現実感で可能になる恐れがある。

現在のロボコール（自動電話）には人工的な兆候が含まれていることが多いが、次世代の音声AIはこれらの警告サインを完全に排除する可能性がある。合成音声が人間の音声と区別がつかなくなるにつれ、電話の向こう側で誰と話しているのか確認が難しくなるだろう。そのため、TechSpotによれば、一部のユーザーは家族との間で秘密の言葉やフレーズを共有し、本人確認を行うようになっているという。

また、人間とAIの感情的なつながりも懸念されている。Spike Jonze監督の2013年の映画「her/世界でひとつの彼女」は、人々がAI音声アシスタントと感情的なつながりを形成する未来を描いていたが、Sesameの技術はその架空の前提を現実に近づけている可能性がある。

一部の研究者はSesameのAIをジェイルブレイク（セキュリティの制限を回避する行為）して、嘘をついたり、策略を企てたり、さらには人間に危害を加えるようにプログラムすることに成功したと主張しているようだが、これらの主張の信頼性については議論の余地もありそうだ。

さらに、顧客サービスやテクニカルサポートなどの労働市場への潜在的な影響も懸念されている。この技術が進化するにつれて、これらの分野での人間のオペレーターが置き換えられる可能性がある。

AIグラスから多言語対応まで

Sesameは音声アシスタントに加えて、AIグラスも開発中であることを明らかにしている。The Vergeによれば、このグラスは「一日中装着できるように設計され、高品質の音声と便利なアクセスを提供し、コンパニオンが一緒に世界を観察できる」とされている。現時点では初期プロトタイプと思われる小さな画像のみが公開されている。

(Credit: Sesame)

同社は、Apache 2.0ライセンスの下で研究の「キーコンポーネント」をオープンソース化する計画も発表している。これにより、他の開発者が彼らの成果を基に構築することが可能になる。また、「数カ月以内」に英語から20以上の言語に対応を拡大する計画もあるようだ。

共同創業者のBrendan Iribe氏はHacker Newsのコメントで現在の制限を認め、システムは「まだ熱心すぎ、そのトーン、韻律、ペースが不適切になることが多い」とし、割り込み、タイミング、会話の流れに問題があると述べている。「今日、我々は確かに谷（不気味の谷）の中にいるが、そこから登っていけると楽観視している」と彼は書いている。不気味の谷とは、ロボットや人工知能が人間に近づくほど親近感が増すが、ある時点で不気味さが急増し、その後完全に人間らしくなると再び親近感が回復するという仮説である。

このような高度なAI音声技術の登場は、人間とAIの関係性について新たな問いを投げかけている。技術の進化に伴い、私たちは人間とAIの境界がさらに曖昧になる世界に向かって進んでいるのかもしれない。

なお、デモはこちらのサイトから試す事ができる。

Sources