Apple、iPhone上で導入されると見られるオープンソースの軽量言語モデル「OpenELM」をリリース

masapoco
投稿日
2024年4月25日
apple siri iphone scaled

Appleは本日新たなAIモデルを公開したが、この動きはこれまでの噂にあった、AppleのAI戦略が“オンデバイスでのAI処理”に軸足を置いた物であることを裏付ける物だ。

4つのオープンソースモデルの公開

Appleは、共同プラットフォームHugging Face上に、4つの非常に小さな言語モデルシリーズである「OpenELM (Open Source Efficient LLM)」をリリースした。Hugging Faceは、AIモデルをホストし、それらを訓練し、他の人と協力して改良を加えるために使用される。

OpenELMは、進化的アルゴリズムを使用して複数の大規模言語モデル(LLM)を組み合わせるオープンソースのライブラリとのことだ。この“オープンソース”と言う点は、通常あまりオープンな動きを取らないAppleとしては珍しい動きと言えるだろう。Appleのオープン性の主張は、モデルだけでなく、そのトレーニングと評価のフレームワークも公開するという決断から来ている。

「モデルの重みと推論コードのみを提供し、プライベートなデータセットで事前トレーニングを行うという従来のやり方とは異なり、我々のリリースには、トレーニングログ、複数のチェックポイント、事前トレーニングの設定を含む、一般公開されているデータセットでの言語モデルのトレーニングと評価のための完全なフレームワークが含まれています」と、Appleの研究者は関連する技術論文の中で説明している。

ただし、付属のソフトウェアリリースは、オープンソースライセンスとして認められているものではない。不当な制限はないが、OpenELMに基づく派生物がその権利を侵害するとみなされた場合、Appleが特許クレームを提出する権利を留保していることが明確にされている。

研究者らによると、OpenELMは、Eメール作成などのテキスト関連のタスクで非常に効率的に動作するとのことだ。

OpenELMは、Transfomerモデルでより効率的にパラメーターを割り当てるために、“レイヤーワイズスケーリング”と呼ばれる技術を利用している。つまり、各レイヤーが同じパラメーターのセットを持つのではなく、OpenELMのTransfomerレイヤーは異なる構成とパラメーターを持つのだ。その結果、精度が向上し、ベンチマークテストにおけるモデルからの予測の正答率に表れている。

これらのモデルは、CoreNetライブラリを使用して事前にトレーニングされており、Appleは、2億7,000万、4億5,000万、11億、30億の4つのサイズのパラメータを使用し、訓練済みモデルと命令チューニング済みモデルの両方を提供した。

事前学習データセットには、Dolma v1.6のサブセット、RefinedWeb、重複排除されたPILE、RedPajamaのサブセットの組み合わせが使用された。その結果、約1兆8000億のトークンを含むデータセットが得られた。

モデルの精度に関しては、10億のパラメータ・バジェットを使用した場合、OpenELMはOLMoと比較して2.36%の精度向上があり、事前学習トークンの数は半分で済むと説明されている。

このリリースの特筆すべき点は、”Appleデバイス上での推論と微調整のためにモデルをMLXライブラリに変換するコード“が付属していることだろう。

MLXは昨年リリースされた、Appleシリコン上で機械学習を実行するためのフレームワークだ。ネットワーク経由ではなく、Appleのデバイス上でローカルに動作させることができるため、OpenELMは開発者にとってより興味深いものになるはずだ。


論文

参考文献

研究の要旨

大規模な言語モデルの再現性と透明性は、オープンな研究を推進し、結果の信頼性を確保し、データやモデルの偏りや潜在的なリスクの調査を可能にするために極めて重要です。この目的のために、私たちは最先端のオープン言語モデルであるOpenELMをリリースします。OpenELMは、レイヤー単位のスケーリング戦略を用いて、変換モデルの各レイヤーに効率的にパラメータを割り当てることで、精度を向上させています。例えば、約10億パラメータのパラメータバジェットで、OpenELMはOLMoと比較して2.36%の精度向上を示し、同時に2倍少ない事前学習トークンを必要とします。
モデルの重みと推論コードのみを提供し、プライベートなデータセットで事前学習を行う先行事例とは異なり、OpenELMのリリースには、学習ログ、複数のチェックポイント、事前学習設定を含む、一般公開されているデータセットでの言語モデルの学習と評価のための完全なフレームワークが含まれています。また、Appleデバイス上での推論と微調整のために、モデルをMLXライブラリに変換するコードもリリースします。この包括的なリリースの目的は、オープンリサーチコミュニティを強化し、将来のオープンリサーチへの道を開くことです。



スポンサーリンク


この記事が面白かったら是非シェアをお願いします!


  • snapdragon x plus hero
    次の記事

    Qualcomm、Snapdragon X Elite及びPlusチップの詳細を発表、2024年半ばの登場

    2024年4月25日
  • 前の記事

    Qualcomm、Snapdragon Xシリーズチップの詳細仕様がリーク

    2024年4月24日
    SnapdragonXElite HeroImage
この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • tsmc semiconductor wafer 2

    Samsung、初の3nmモバイルSoCをテープアウト、Synopsys.aiによって効率的な設計が可能に

  • b73e704cba1e00bdc3abf5acaab15333

    AI言語モデルは人間の脳のように、複数の将来を予測するように進化するかも知れない

  • 1eb976aaebe1cb57a7d1ae03cae4db96

    AIエンジニアは燃え尽き症候群に陥っている

  • apple store wide

    Appleはサプライヤーから技術を盗んで他社に提供し安価に製造させていた

  • 0c2858e024ff2ee0b9f8ed320de47ff3

    AIは宇宙について何を学べるのか?

今読まれている記事