テクノロジーと科学の最新の話題を毎日配信中!!

Mistral、画像と文章を処理できる初のマルチモーダルAI「Pixtral 12B」をリリース

Y Kobayashi

2024年9月12日

フランスのAIスタートアップMistralが、同社初となるマルチモーダルAIモデル「Pixtral 12B」をリリースした。このモデルは、テキストだけでなく画像も処理できる能力を持ち、AIの応用範囲を大きく広げる可能性を秘めている。

スポンサーリンク

Pixtral 12Bの概要と特徴

Pixtral 12Bは、約120億(12B)のパラメータを持つマルチモーダルAIモデルで、サイズは約24GBとなっている。パラメータ数は、モデルの問題解決能力とおおよそ比例関係にあり、一般的にパラメータ数が多いモデルほど高い性能を発揮するとされている。

このモデルの最大の特徴は、テキストと画像の両方を同時に処理できるマルチモーダル機能にある。つまり、Pixtral 12Bは入力した画像に関する質問への回答や、写真に写っているオブジェクトの数を数えるなど、多様なタスクをこなすことが可能となる。

Pixtral 12Bは、Mistralの既存テキストモデル「Nemo 12B」に4億パラメータの視覚アダプターを追加することで開発された。この視覚アダプターにより、ユーザーは入力テキスト内にURLや画像をbase64エンコードして追加することが可能となっている。

モデルのパラメータとコードは、GitHubのトレントリンクおよびAI開発プラットフォームHugging Faceを通じて公開されている。Mistralは開発者に対して、モデルのダウンロードと利用を奨励している。

Pixtral 12Bは、Apache 2.0ライセンスの下で制限なくダウンロード、ファインチューニング、使用が可能である。これにより、開発者は自身の目的に合わせてモデルを調整し、トレーニングすることができる。

Mistralの開発者リレーション責任者であるSophia Yangは、Xへの投稿で、「Pixtral 12Bが近々Mistralのチャットボットプラットフォーム『Le Chat』およびAPIサービス『Le Plateforme』でテスト可能になる」と述べている。

Pixtral 12Bのリリースは、General Catalystが主導する6億4,500万ドルの資金調達ラウンドを締め結んだ直後に行われた。設立からわずか1年あまりのMistralは、多くのAI業界関係者からヨーロッパのOpenAIと見なされており、Microsoftも少数株主として参画している。

Mistralの戦略は、これまでのところ無料の「オープン」モデルをリリースし、それらのモデルの管理版を有料で提供し、企業顧客にコンサルティングサービスを提供するというものだ。Pixtral 12Bの登場により、同社のAI技術の幅がさらに広がったことになる。

今後、Pixtral 12Bが実際のアプリケーションでどのように活用されるか、また他の主要なマルチモーダルAIモデルとどのように性能を比較できるかが注目される。


Source

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする