フランスのAIスタートアップMistralが、同社初となるマルチモーダルAIモデル「Pixtral 12B」をリリースした。このモデルは、テキストだけでなく画像も処理できる能力を持ち、AIの応用範囲を大きく広げる可能性を秘めている。
Pixtral 12Bの概要と特徴
Pixtral 12Bは、約120億(12B)のパラメータを持つマルチモーダルAIモデルで、サイズは約24GBとなっている。パラメータ数は、モデルの問題解決能力とおおよそ比例関係にあり、一般的にパラメータ数が多いモデルほど高い性能を発揮するとされている。
このモデルの最大の特徴は、テキストと画像の両方を同時に処理できるマルチモーダル機能にある。つまり、Pixtral 12Bは入力した画像に関する質問への回答や、写真に写っているオブジェクトの数を数えるなど、多様なタスクをこなすことが可能となる。
Pixtral 12Bは、Mistralの既存テキストモデル「Nemo 12B」に4億パラメータの視覚アダプターを追加することで開発された。この視覚アダプターにより、ユーザーは入力テキスト内にURLや画像をbase64エンコードして追加することが可能となっている。
モデルのパラメータとコードは、GitHubのトレントリンクおよびAI開発プラットフォームHugging Faceを通じて公開されている。Mistralは開発者に対して、モデルのダウンロードと利用を奨励している。
Pixtral 12Bは、Apache 2.0ライセンスの下で制限なくダウンロード、ファインチューニング、使用が可能である。これにより、開発者は自身の目的に合わせてモデルを調整し、トレーニングすることができる。
Mistralの開発者リレーション責任者であるSophia Yangは、Xへの投稿で、「Pixtral 12Bが近々Mistralのチャットボットプラットフォーム『Le Chat』およびAPIサービス『Le Plateforme』でテスト可能になる」と述べている。
Pixtral 12Bのリリースは、General Catalystが主導する6億4,500万ドルの資金調達ラウンドを締め結んだ直後に行われた。設立からわずか1年あまりのMistralは、多くのAI業界関係者からヨーロッパのOpenAIと見なされており、Microsoftも少数株主として参画している。
Mistralの戦略は、これまでのところ無料の「オープン」モデルをリリースし、それらのモデルの管理版を有料で提供し、企業顧客にコンサルティングサービスを提供するというものだ。Pixtral 12Bの登場により、同社のAI技術の幅がさらに広がったことになる。
今後、Pixtral 12Bが実際のアプリケーションでどのように活用されるか、また他の主要なマルチモーダルAIモデルとどのように性能を比較できるかが注目される。
Source
コメント