Microsoftは14日、わずか140億のパラメータながら大規模モデルに匹敵する性能を持つ小規模言語モデル「Phi-4」を発表した。数学的推論において特に優れた性能を示し、同社のAI開発アプローチに大きな転換点をもたらす可能性がある。
効率性を追求した革新的アプローチ
Phi-4の革新性は、その独自の学習アプローチにある。Microsoftの研究チームは、Webコンテンツから直接学習を行う従来の手法から大きく転換し、合成データを中心とした新しい学習方法を採用した。具体的には400億トークンに及ぶ50種類の合成データセットを用いて学習を実施している。
データ収集の第一段階では、公開WebやMicrosoftの既存のAI学習データセット、その他のソースから数千万件に及ぶ質疑応答ペアを収集した。この過程で研究チームは、オンライン上で同一の回答が複数見つかる質問を除外している。これは問題が単純すぎることを示す指標となるためだ。同様に、回答が大きく異なる問題も、複雑すぎる可能性があるとして除外された。
次に、収集したデータを基にして合成データの生成を行った。この工程では複数の手法が採用された。その一つは、AIを使用してWeb上の情報をテスト問題形式に書き換え、それに対する回答を生成し、さらにその回答を分析して改善を行うというものだ。また別の手法では、オープンソースのコードを起点として、そのコードスニペットが正解となるような問題をAIに生成させている。
データの品質管理も徹底している。研究チームは自動化されたワークフローを構築し、生成された合成データの正確性を検証した。特に推論を重視したデータセットに対しては専用の検証テストを実施し、科学的なデータセットについては科学文献との照合を行っている。さらにコードに関する合成データは、実際に実行テストを行うことで妥当性を確認している。
このような入念な準備と検証のプロセスを経て生成された合成データは、単なる有機データの代替品ではない。Microsoft研究チームは、この方法には有機データを上回る直接的な利点があると指摘している。実際、完成したPhi-4は、前世代モデルと比較してほぼすべてのベンチマークで性能が向上し、一部のケースでは20%以上の改善が見られている。これは、合成データを中心とした学習アプローチの有効性を実証する結果となった。
驚異的な性能と実用性
Phi-4の性能は、特に数学的推論の分野で際立っている。大学レベルの問題における56.1%という正答率は、パラメータ数が5倍以上の大規模モデルと比較しても遜色ない成績だ。さらに数学競技の問題では80.4%という高い正答率を記録し、GPT-4oやMeta社のLlama 3.3を上回る結果となった。
特筆すべき成果として、科学技術分野の質問に対する回答能力がある。GPQAと呼ばれる448の多肢選択問題からなるベンチマークテストでは、教師モデルとして使用したGPT-4を上回る性能を示した。これは、合成データを用いた学習アプローチが、特定分野における専門的な推論能力の向上に効果的であることを示唆している。
モデルの実力を検証するため、Microsoft研究チームは興味深い実験を行った。2024年11月の米国数学競技の問題、つまりモデルの学習時には存在していなかった新しい問題に対してテストを実施したところ、91.8%という驚異的なスコアを記録した。この結果は研究チーム自身の予想をも上回るものだった。これは、Phi-4が単に学習データを暗記しているのではなく、真の意味で数学的推論能力を獲得していることを示唆している。
一方で、Phi-4にも課題は存在する。プロンプトの厳密な指示への追従や、表形式データの扱いには改善の余地がある。これは、質疑応答と推論に重点を置いた学習方針の影響とされている。また、未知の人物に関する架空の経歴を生成してしまうなど、他の言語モデルと同様の問題も抱えている。さらに、9.9と9.11の大小比較といった基本的な論理テストに失敗することもあり、このような初歩的なエラーの改善が今後の課題となっている。
処理能力の面では、最大4,000トークンまでの入力を処理できる。これは前世代のPhi-3-mediumが2,000トークンまでしか処理できなかったことと比較すると、大きな進歩と言える。この改善は、アテンションメカニズムのアップグレードによって実現された。新しいアテンションメカニズムは、より長い文脈を考慮しながら、テキスト内の重要な詳細を効果的に見出すことができる。
現在、Phi-4はMicrosoftのAzure AI Foundryプラットフォームを通じて提供されており、来週にはHugging Faceでも公開される予定だ。この展開により、より多くの研究者や開発者がこの革新的なモデルにアクセスできるようになり、実用的なアプリケーションの開発が促進されることが期待される。
論文
- arXiv: Phi-4 Technical Report
参考文献
コメント