Tech Product

Conversational Speech Model

別名: CSM

Overview

Conversational Speech Model (CSM)は、Sesame AIが開発した次世代の音声AIモデルです。MetaのLlamaアーキテクチャをベースにしており、最大83億パラメータの規模を持ちます。従来の音声合成がテキストから中間表現を経て音声を生成する2段階方式だったのに対し、CSMはテキストと音声を一度に処理する単一段階の方式を採用することで、極めて自然な間の取り方や感情表現を実現しています。約100万時間の音声データで学習されており、単発の音声サンプルでは人間と区別がつかないレベルに達しています。男性の声「Miles」と女性の声「Maya」という2つのパーソナリティが提供されています。

Mentioned Articles

1 件