Google DeepMindが、人工知能の効率性と拡張性を劇的に向上させる新たなAIアーキテクチャ「PEER」を開発した。従来のTransformerモデルの限界を打破し、100万以上の「小さな専門家」を活用することで、言語モデルの性能を飛躍的に向上させる可能性を示した。この革新的な技術は、AIの未来に大きな影響を与える可能性がある。
MoEアーキテクチャを発展させ、上回る性能を示す
Mixture of Experts (MoE) は、大規模な単一モデルの代わりに、複数の小さな「専門家」モジュールを使用するアーキテクチャだ。MoEは、入力データに応じて最も適切な「専門家」モジュールのみを活性化するため、モデル全体の容量を増やしながら、各推論時の計算コストを抑えることが可能という大きな特徴がある。また、専門家の数を増やすことで、モデルの総パラメータ数を増加させつつ、推論時の計算コストを抑制することも可能となり、これにより、より大規模なモデルの構築が可能になるなどの利点がある。
MoEの概念は、Mixtral、DBRX、Grokなどの最新の言語モデルで採用されており、OpenAIのGPT-4でも使用されていると言われている。
Google DeepMindの研究チームは、このMoEを発展させた、新たな「Parameter Efficient Expert Retrieval(PEER)」と呼ばれる新しいAIアーキテクチャを開発した。PEERは、従来のTransformerモデルで使用される大規模なフィードフォワード層の代わりに、100万以上の「小さな専門家」(わずか1つのニューロンを持つ小規模なニューラルネットワーク)を活用する。
PEERの核心は、「Product Key Memory」と呼ばれる技術にある。この技術により、数百万の専門家の中から最も関連性の高い専門家を効率的に選択することが可能になる。具体的には、入力データに対して、クエリネットワークがクエリベクトルを生成し、このベクトルを用いて最適な専門家を選択する。選択された専門家の出力は、ルーターのスコアに基づいて線形結合される。
研究チームは、言語モデリングの実験においてPEERの性能を検証した。その結果、同じ計算パワーを使用した場合、PEERは従来のTransformerモデルや以前のMoEアプローチを上回る性能を示した。
研究者らはPEERの成功を、「スケーリング則」に当てはめて説明している。これは、AIモデルの性能がそのサイズとトレーニングデータ量に応じてどのように向上するかを数学的に記述したものだ。研究者らは、非常に多数の小さな専門家を使用することで、計算コストを大幅に増やすことなくモデルの全体的な容量を増やすことが可能になると説明している。
さらに、PEERの設計に関する包括的な検証実験も行われた。専門家の総数、アクティブなパラメータ数、ヘッド数、クエリバッチ正規化などの設計選択が言語モデリングタスクに与える影響が詳細に調査された。
研究者たちは、PEERのもうひとつの利点は「生涯学習」の可能性にあると考えている。 新しい専門家を簡単に追加できるため、PEERモデルは理論上、すでに学習したことを忘れることなく、常に新しい情報を吸収することができるのだ。
これらの結果は、PEERがAIモデルをより効率的かつスケーラブルにする有望なアプローチであることを示している。しかし、研究者たちは、この技術の可能性を完全に活用するにはさらなる研究が必要だと指摘している。
論文
- arXiv: Mixture of A Million Experts
参考文献
研究の要旨
標準的なTransformerアーキテクチャのフィードフォワード(FFW)層は、隠れ層の幅が大きくなるにつれて、計算コストと活性化メモリが線形に増加する。 スパースMoE(Mixture-of-Experts)アーキテクチャは、モデルサイズと計算コストを切り離すことで、この問題に対処する有効なアプローチとして登場した。 最近発見されたMoEスケーリング則は、粒度が高いほど性能が向上することを示している。 しかし、既存のMoEモデルは、計算と最適化の課題により、少数のエキスパートに限られている。 本論文では、PEER (parameter efficient expert retrieval)を紹介する。PEERは、プロダクトキー(product key)技術を利用し、膨大な数のエキスパート(100万人以上)から疎な検索を行う新しいレイヤーデザインである。 言語モデリングタスクの実験により、PEERレイヤが高密度FFWや粗視化MoEを性能-計算トレードオフの点で上回ることが実証された。 膨大な数のエキスパートの効率的な利用を可能にすることで、PEERは計算効率を維持しながらトランスフォーマーモデルのさらなるスケーリングの可能性を解き放つ。
コメント