国内AIソリューション企業AIdeaLabは、日本初となる商用利用可能な日本語動画生成AI基盤モデル「AIdeaLab VideoJP」を無償で公開した。同モデルは、経済産業省とNEDOが実施する国内生成AI開発力強化プロジェクト「GENIAC」の成果を活用し、フルスクラッチで開発された。特筆すべきは、著作権に配慮した学習データの選定と、日本語での直接的な動画生成が可能な点だ。
日本語と英語のシームレスな対応を実現
AIdeaLab VideoJPの最大の特徴は、日本語と英語の両言語に対応した直接的な動画生成能力にある。従来の動画生成AIでは、日本語での利用時に翻訳ソフトを介する必要があり、ニュアンスの変化や意図の歪みが問題となっていた。
AIdeaLab VideoJPでは、大規模言語モデル「llm-jp-3.1.8b」を採用することで、日本人の言語感覚に即した自然な動画生成を実現。例えば、「チューリップや菜の花、色とりどりの花が果てしなく続く畑を埋め尽くし、まるでパッチワークのようにカラフルに彩る。朝の柔らかな光が花びらを透かし、淡いグラデーションが映える。風に揺れる花々をスローモーションで捉え、花びらが優雅に舞う姿を映画のような演出で撮影。背景には遠くに連なる山並みや青い空、浮かぶ白い雲が立体感を引き立てる」といった日本語での情景描写を、直接動画化することが可能となっている。
著作権とライセンスへの徹底した配慮
AIdeaLabは、学習データの選定において、著作権とライセンスに関する厳格な基準を設けている。具体的には、以下の3条件を満たす動画のみを学習データとして使用:
- 改変が許可されているライセンス
- 商用利用が可能
- ライセンスの変更が許可されている
これらの条件を満たすCC-BY-4.0およびCC-0ライセンスの動画のみを使用し、主にPixabayの動画を含むHuggingFaceのデータセットから学習データを収集。この透明性の高いアプローチにより、著作権問題のリスクを最小限に抑えている。
最新技術の採用で高速推論を実現
技術面では、Meta社のMeta Movie GenやTencentのHunyuanVideoでも採用されているRectified Flow Transformerを実装。このアルゴリズムにより、家庭用GPUでも動作可能な推論速度を実現している。嬉しいことに、最小14GB以上のVRAMを搭載したGPUで動作が可能だ。
シンプルな利用条件とアクセシビリティ
モデルのライセンスには、オープンソースソフトウェア界で広く採用されているApache License 2.0を採用。商用利用を含む幅広い用途での利用が可能となっている。モデルはHuggingFace上で公開され、無償でダウンロードまたはオンラインでの利用が可能だ。
AIdeaLab代表の冨平準喜氏は、今後より高品質な動画生成モデルの開発に注力する方針を示している。特に、アニメーション向けの特化モデルの開発も計画されており、クリエイティブ産業への更なる貢献が期待される。
Source
コメント