Stability AIがテキストから様々なオーディオサンプルを生成出来るAIモデル「Stable Audio Open」をリリースした。このモデルはその名の通りオープンソースモデルであり、サウンドデザイナー、ミュージシャン、クリエイティブプロフェッショナルのために設計されている。
音楽製作のための様々な素材を作製出来る
AI画像ジェネレーターStable Diffusionの開発元であるStability AIが開発した「Stable Audio Open」は、ドラムビート、楽器のリフ、アンビエントサウンド、その他音楽制作やサウンドデザインで必要となる最大47秒のオーディオ要素をシンプルなテキストプロンプトから作成できる。
Stable Audio Openの利用に際しては、まずはHugging Faceからダウンロードする必要がある。ユーザーが自分のオーディオデータを使ってモデルを変更したりカスタマイズしたりすることも可能だ。Stability AIは、サウンドデザイナー、ミュージシャン、開発者、オーディオファンにモデルをダウンロードしてもらい、フィードバックを提供することを望んでいる。
最大3分の音源を作成できる有料製品Stable Audio 2とは異なり、Stable Audio Openは短いオーディオサンプルとサウンドエフェクトに焦点を当てている。フルソング、メロディー、ボーカルを生成するようには設計されていない。
なお、Stable Audio Openは、クリエイティブ・コミュニティとの責任ある開発を保証しながら、サウンドデザインのための生成AIの可能性を示すことを目的として開発されたとのことだ。そのため、クリエイターの権利を保護するため、FreeSoundとFree Music ArchiveのオーディオデータがStable Audio Openの学習に使用されている。
Sources
コメント