Appleが独自のAIモデル開発に、NVIDIAのGPUではなく、GoogleのTensor Processing Unit (TPU)を使用していたことが明らかになった。この予想外の選択は、AI業界におけるAppleの戦略と、主要テクノロジー企業間の複雑な関係性について垣間見せてくれる興味深い事例と言えるだろう。
GPUではなくTPUを用いたAppleの戦略
「Apple Intelligence Foundation Language Models」と題された研究論文の中で、AppleはAFM(Apple Foundation Model)と呼ばれる独自の言語モデルの開発プロセスを詳細に説明している。AFMには2つのバージョンがあり、1つはクラウドベースのAFM-server、もう1つはデバイス上で動作するAFM-on-deviceである。AFM-serverの開発には8,192個のTPUv4チップが使用され、一方でAFM-on-deviceの開発には2,048個のTPUv5pチップが使用されたことが明らかになった。
AFM-serverは特に大規模なモデルで、6.3兆トークンという膨大なデータセットを用いてトレーニングされた。このモデルは64億のパラメータを持ち、AppleのクラウドベースのAI機能を支える役割を果たす。トレーニングプロセスは3段階で行われ、最初に6.3兆トークン、次に1兆トークン、最後に文脈理解を深めるために1000兆トークンが使用された。
一方、AFM-on-deviceは30億パラメータに圧縮されたモデルで、iPhoneなどのAppleデバイス上でオフラインでのAI機能を可能にする。このモデルは、より大規模なサーバーモデルから知識蒸留技術を用いて作成された。Appleはこの技術により、小規模なモデルでありながら高いパフォーマンスと効率を実現したと主張している。
トレーニングに使用されたデータの内容も興味深い。Appleは独自のWebクローラーであるApplebotが収集した情報を使用する一方で、ライセンス取得済みの高品質データセットも活用した。さらに、厳選されたコード、数学、公開データセットも使用されている。このような多様なデータソースの組み合わせは、AFMの汎用性と性能向上に貢献していると考えられる。
Appleは自社のAIモデルの性能について、有害な出力の抑制や数学的パフォーマンス、人間の満足度などの面で業界をリードしていると主張している。例えば、AFM-serverの有害な出力違反率は6.3%で、これはOpenAIのGPT-4の28.8%を大きく下回る数字である。また、メールやメッセージ、通知の要約タスクにおいても、AFM-on-deviceは他社モデルを上回る満足度を達成したとしている。
しかし、AppleのAI戦略はGoogleのハードウェアに依存するだけではない。同社は将来的に「Project ACDC」と呼ばれる独自のAIハードウェア開発プロジェクトを進めているとされる。このプロジェクトは、Apple Siliconから派生した技術を用いて、Appleのデータセンター内でAIアプリケーションを最適化することを目指している。
さらに、Appleは今後2年間で50億ドル以上をAIサーバーの強化に投資する計画を立てている。この莫大な投資は、MicrosoftやMetaといった競合他社に追いつき、AI分野でのリーダーシップを確立するための戦略的な動きと見られる。また、AIクエリで使用されるデータを圧縮する技術を持つカナダとフランスの企業を買収するなど、AI関連技術の獲得にも積極的に動いている。
このようなAppleのAI開発戦略の詳細が明らかになったことは、同社がAI分野で遅れを取り戻そうとしている姿勢を如実に示している。通常は自社の技術的な詳細を公開することに慎重なAppleが、このような詳細な研究論文を発表したことは異例であり、AI分野での存在感を示そうとする同社の並々ならぬ意欲の表れと言えるだろう。
論文
- Apple: Apple Intelligence Foundation Language Models [PDF]
参考文献
研究の要旨
Apple Intelligenceの機能を強化するために開発された、デバイス上で効率的に動作するように設計された約30億のパラメータモデルと、Private Cloud Compute用に設計された大規模なサーバーベースの言語モデルを含む、基盤言語モデルを紹介する。 これらのモデルは、幅広いタスクを効率的かつ正確に、責任を持って実行できるように設計されている。 本レポートでは、モデルのアーキテクチャ、モデルの訓練に使用したデータ、訓練プロセス、推論のためのモデルの最適化方法、および評価結果について説明する。 責任あるAIに焦点を当て、その原則がモデル開発全体を通してどのように適用されているかを強調する。
コメント