テクノロジー
Sesame AIの超リアルな音声チャットボットが大きな期待と不安を巻き起こす
Oculus VRの共同創業者らが立ち上げたSesame AIが、人間との区別が困難なほど自然な会話ができる新たなAI音声モデル「Conversational Speech Model(CSM)」を発表した。「Miles […]
別名: CSM
Conversational Speech Model (CSM)は、Sesame AIが開発した次世代の音声AIモデルです。MetaのLlamaアーキテクチャをベースにしており、最大83億パラメータの規模を持ちます。従来の音声合成がテキストから中間表現を経て音声を生成する2段階方式だったのに対し、CSMはテキストと音声を一度に処理する単一段階の方式を採用することで、極めて自然な間の取り方や感情表現を実現しています。約100万時間の音声データで学習されており、単発の音声サンプルでは人間と区別がつかないレベルに達しています。男性の声「Miles」と女性の声「Maya」という2つのパーソナリティが提供されています。