Allen Institute for Artificial Intelligence(AI2)が、GPT-4を凌ぐ性能を持つオープンソースのマルチモーダルAIモデル「Molmo」を発表した。この革新的なモデルは、テキストと画像の両方を処理できる能力を持ち、特に画像認識タスクにおいて卓越した性能を示している。
オープンソースマルチモーダルモデルAI「Molmo」の革新的な特徴
Molmoの登場は、AIの民主化とオープンソース開発の重要性を改めて示すものだ。大手テクノロジー企業が独占的に開発を進める中、AI2は高性能なAIモデルを一般に公開することで、AIの進歩と応用の可能性を広げている。
Molmo(Multimodal Open Language Model)は、中国Alibabaの大規模言語モデル「Qwen2」及び、AI2の開発したOLMoをベースとして開発された、4つのニューラルネットワークから構成されるモデルファミリーだ。最も高度なモデルは720億のパラメータを持ち、最もハードウェア効率の良いモデルは10億のパラメータを持つ。残りの2つのモデルはそれぞれ70億のパラメータを持っている。
Molmoの最大の特徴は、その高い処理能力にある。AI2の内部評価によると、720億パラメータのMolmo 72Bモデルは11のベンチマークテストで81.2点を獲得し、OpenAIのGPT-4oをわずかに上回る性能を示した。さらに注目すべきは、70億パラメータのモデルがGPT-4oに5ポイント以内の差で迫る性能を発揮したことだ。
Molmoの能力は多岐にわたる。画像内のオブジェクトを識別し、数え、説明することができる。さらに、グラフやチャートのデータを解釈し説明する能力も持っている。これらの機能は、単なる画像認識を超えた、高度な視覚的理解と言語処理の融合を示すものだ。
AI2のCEOであるAli Farhadi氏は、Molmoの開発において「オープンはクローズドに匹敵し、小規模は大規模に匹敵する」という原則を強調した。この言葉は、Molmoが商用の大規模モデルと同等の性能を、はるかに小さなモデルサイズとオープンソースの形で実現したことを端的に表している。
Molmoの技術的革新と業界への影響
Molmoの卓越した性能の背景には、独自のデータセット構築手法がある。AI2の研究チームは、数十億の画像を使用する従来のアプローチとは異なり、わずか60万枚の厳選された画像とその詳細な説明を用いてモデルを訓練した。この「質」を重視したアプローチにより、Molmoは大規模モデルの10分の1以下のサイズでありながら、同等以上の性能を実現している。
特筆すべきは、Molmoの画像理解能力の精度と実用性だ。例えば、画像内の特定のオブジェクトを「指し示す」機能は、Molmoの独自性を示している。犬の数を数えるよう指示されれば、各犬の顔に点を打つ。舌を出している犬の数を尋ねれば、各舌に点を打つ。この特異的な認識能力により、Molmoは多様なゼロショットタスクを実行できる。
さらに、MolmoはWebインターフェースの理解にも長けている。Webサイトのコードを見ることなく、ページのナビゲーションやフォームの送信などの操作を理解し実行できる。この機能は、AIによるWeb操作の自動化に新たな可能性を開くものだ。
Molmoの公開は、AI業界に大きな波紋を投げかけている。Google、OpenAI、Anthropicなどの大手企業が巨額の資金と多数の研究者を投入してAIモデルを開発する中、AI2は比較的小規模なリソースで競争力のあるモデルを作り上げた。これは、AIモデル開発の「民主化」が現実のものとなりつつあることを示している。
Farhadi氏は、Molmoの公開について次のように述べている。「私たちは、研究者、開発者、アプリ開発者、そしてこれらの大規模モデルの扱いに慣れていない人々をターゲットにしています。幅広い層のユーザーをターゲットにする上で重要な原則は、アクセシビリティを高めることです。私たちは開発したすべてのものを公開しています。これにはデータ、クリーニング、アノテーション、トレーニング、コード、チェックポイント、評価が含まれます」。
この方針は、AIの発展に大きく寄与する可能性がある。開発者やクリエイターは、大手テクノロジー企業の許可を得たり、高額な料金を支払ったりすることなく、AI駆動のアプリケーションやサービス、体験を作成できるようになる。
Molmoの各モデルはHuggin Faceで公開されており、ダウンロード可能だ。
Sources
- Molmo: Introducing Molmo
コメント