Apple、iPhone上で導入されると見られるオープンソースの軽量言語モデル「OpenELM」をリリース

2024年4月25日

当記事のリンクにはアフィリエイト広告が含まれています。

Appleは本日新たなAIモデルを公開したが、この動きはこれまでの噂にあった、AppleのAI戦略が“オンデバイスでのAI処理”に軸足を置いた物であることを裏付ける物だ。

4つのオープンソースモデルの公開

Appleは、共同プラットフォームHugging Face上に、4つの非常に小さな言語モデルシリーズである「OpenELM (Open Source Efficient LLM)」をリリースした。Hugging Faceは、AIモデルをホストし、それらを訓練し、他の人と協力して改良を加えるために使用される。

OpenELMは、進化的アルゴリズムを使用して複数の大規模言語モデル（LLM）を組み合わせるオープンソースのライブラリとのことだ。この“オープンソース”と言う点は、通常あまりオープンな動きを取らないAppleとしては珍しい動きと言えるだろう。Appleのオープン性の主張は、モデルだけでなく、そのトレーニングと評価のフレームワークも公開するという決断から来ている。

「モデルの重みと推論コードのみを提供し、プライベートなデータセットで事前トレーニングを行うという従来のやり方とは異なり、我々のリリースには、トレーニングログ、複数のチェックポイント、事前トレーニングの設定を含む、一般公開されているデータセットでの言語モデルのトレーニングと評価のための完全なフレームワークが含まれています」と、Appleの研究者は関連する技術論文の中で説明している。

ただし、付属のソフトウェアリリースは、オープンソースライセンスとして認められているものではない。不当な制限はないが、OpenELMに基づく派生物がその権利を侵害するとみなされた場合、Appleが特許クレームを提出する権利を留保していることが明確にされている。

研究者らによると、OpenELMは、Eメール作成などのテキスト関連のタスクで非常に効率的に動作するとのことだ。

OpenELMは、Transfomerモデルでより効率的にパラメーターを割り当てるために、“レイヤーワイズスケーリング”と呼ばれる技術を利用している。つまり、各レイヤーが同じパラメーターのセットを持つのではなく、OpenELMのTransfomerレイヤーは異なる構成とパラメーターを持つのだ。その結果、精度が向上し、ベンチマークテストにおけるモデルからの予測の正答率に表れている。

これらのモデルは、CoreNetライブラリを使用して事前にトレーニングされており、Appleは、2億7,000万、4億5,000万、11億、30億の4つのサイズのパラメータを使用し、訓練済みモデルと命令チューニング済みモデルの両方を提供した。

事前学習データセットには、Dolma v1.6のサブセット、RefinedWeb、重複排除されたPILE、RedPajamaのサブセットの組み合わせが使用された。その結果、約1兆8000億のトークンを含むデータセットが得られた。

モデルの精度に関しては、10億のパラメータ・バジェットを使用した場合、OpenELMはOLMoと比較して2.36%の精度向上があり、事前学習トークンの数は半分で済むと説明されている。

このリリースの特筆すべき点は、”Appleデバイス上での推論と微調整のためにモデルをMLXライブラリに変換するコード“が付属していることだろう。

MLXは昨年リリースされた、Appleシリコン上で機械学習を実行するためのフレームワークだ。ネットワーク経由ではなく、Appleのデバイス上でローカルに動作させることができるため、OpenELMは開発者にとってより興味深いものになるはずだ。

論文

arXiv: OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

参考文献

Hugging Face: apple/OpenELM-3B
bbb

研究の要旨

大規模な言語モデルの再現性と透明性は、オープンな研究を推進し、結果の信頼性を確保し、データやモデルの偏りや潜在的なリスクの調査を可能にするために極めて重要です。この目的のために、私たちは最先端のオープン言語モデルであるOpenELMをリリースします。OpenELMは、レイヤー単位のスケーリング戦略を用いて、変換モデルの各レイヤーに効率的にパラメータを割り当てることで、精度を向上させています。例えば、約10億パラメータのパラメータバジェットで、OpenELMはOLMoと比較して2.36%の精度向上を示し、同時に2倍少ない事前学習トークンを必要とします。
モデルの重みと推論コードのみを提供し、プライベートなデータセットで事前学習を行う先行事例とは異なり、OpenELMのリリースには、学習ログ、複数のチェックポイント、事前学習設定を含む、一般公開されているデータセットでの言語モデルの学習と評価のための完全なフレームワークが含まれています。また、Appleデバイス上での推論と微調整のために、モデルをMLXライブラリに変換するコードもリリースします。この包括的なリリースの目的は、オープンリサーチコミュニティを強化し、将来のオープンリサーチへの道を開くことです。