Microsoftが新たにオープンソースのAIモデル「Phi 3.5」ファミリーをリリースした。このファミリーには、mini-instruct、MoE-instruct、vision-instructの3つのモデルが含まれており、高度な推論能力と多言語サポートを特徴としている。これらのモデルは、限られたリソース環境や時間制約のある場面での使用に適しており、商用および科学研究用途を想定して設計されている。
Phi 3.5モデルそれぞれの特徴と性能
Microsoft社が新たにリリースした「Phi 3.5」ファミリーは、AI技術の進歩を象徴する画期的なオープンソースモデル群である。このファミリーには、mini-instruct、MoE-instruct、vision-instructという3つの異なるモデルが含まれており、それぞれが高度な推論能力と多言語サポートを特徴としている。これらのモデルは、限られたリソース環境や時間制約のある場面での使用を想定して設計されており、商用および科学研究の両分野での応用が期待されている。
Phi 3.5ファミリーの中核を成すPhi-3.5-MoE-instructモデルは、Microsoftにとって初めてMixture of Experts(MoE)技術を採用したモデルである。このモデルは16の専門家モデル(各3.8億パラメータ)で構成されており、総計で60.8億パラメータを有する。しかし、その真の革新性は、使用時にわずか2つの専門家モデル(6.6億パラメータ)のみをアクティブにすることで、大規模モデルに匹敵する性能を発揮できる点にある。言語理解や数学タスクにおいて大規模モデルと同等の性能を示し、一部の推論タスクではそれらを上回るパフォーマンスを見せている。
一方、Phi-3.5-mini-instructモデルは、わずか3.8億のパラメータを持つ小型モデルでありながら、Llama3.1 8BやMistral 7Bといった大規模モデルを凌駕する性能を示している。特筆すべきは、このモデルが多言語タスクにおいて、はるかに多くのアクティブパラメータを持つLLMと競争できる点である。さらに、Phi-3.5-miniは128,000トークンという長大なコンテキスト長をサポートしており、これは主要な競合モデルであるGemma-2ファミリーの8,000トークンを大きく上回っている。
Phi-3.5-vision-instructモデルは、4.2億パラメータを持つマルチモーダルシステムであり、テキストと画像の両方を処理できる能力を有している。このモデルは、画像理解、OCR、図表理解などのタスクに特化しており、同規模のモデルを性能面で上回るだけでなく、一部の大規模モデルとも競合する性能を示している。特に、マルチフレーム画像理解や推論能力が向上しており、MMMU、MMBench、TextVQAなどのベンチマークでスコアを大幅に改善している。
これらのモデルは全て、128,000トークンという長いコンテキストウィンドウをサポートしている。これにより、長文ドキュメントの要約や多言語コンテキスト検索などのタスクに適している。この点で、8,000トークンに制限されているGoogleのGemma 2モデルを上回っている。ただし、全てのLLMに共通する「lost in the middle」問題、つまり長大なドキュメントを処理する際に中間部分の情報を失いやすい傾向があることには注意が必要だ。
Microsoftは、これらのモデルの訓練に高品質なデータを使用したと述べているが、具体的な訓練プロセスの詳細はまだ公開されていない。ビジョンモデルに関しては、数学、コーディング、常識的推論、一般的な世界知識を教えるための新しく作成された合成の「教科書的」データと、その他の高品質でフィルタリングされたデータを使用したことが明かされている。
しかしながら、これらのモデルにも課題がある。モデルの小型サイズゆえに事実に関する知識が限られており、平均以上の不正確さが生じる可能性がある。Microsoftは、この弱点に対処するためにRAG(Retrieval-Augmented Generation)などの検索手法とPhi 3.5を組み合わせることを提案している。また、他の言語モデルと同様に、バイアスのある、あるいは不適切な出力を生成する可能性も指摘されている。英語では望ましくないコンテンツを拒否する機能を持つが、他言語での複雑なプロンプトインジェクション技術には脆弱性があるとされている。
Phi 3.5モデルは、MITライセンスの下でHugging FaceおよびMicrosoftのAzure AI Studioを通じて利用可能となっている。ただし、フラッシュアテンションをサポートするNVIDIA A100、A6000、H100などの専用GPUハードウェアが必要となるため、一般ユーザーが気軽に利用できる環境ではない点に注意が必要である。
Phi 3.5ファミリーのリリースは、AIモデルの効率性と能力の向上を示す重要なマイルストーンと言える。軽量設計とマルチモーダル理解に焦点を当てたこれらのモデルは、リソースが限られた環境や時間的制約のある場面での応用が期待されており、今後、様々なAIアプリケーションでより広く採用される可能性が高い。しかし、実世界でのパフォーマンスや倫理的な課題についてはさらなる検証が必要であり、今後の研究開発や実用化の過程で注目されるポイントとなるだろう。
Sources
- Hugging Face:
コメント