Metaは、次世代大規模言語モデル(LLM)である「Llama 3」をリリースした。同社によれば、現在リリースされているほとんどのAIモデルよりも優れた性能を発揮するとしており、近いうちにマルチモダリティとより多くの言語をサポートする予定だという。
Metaが本日リリースしたのは、それぞれ8Bと70Bのパラメータを持つ2つのモデルで、事前学習済みLLMと命令チューニング済みLLMが含まれる。。改めて述べておくと、数字の接尾語であるBは数十億(billion)を表し、そのモデルがどれだけのパラメータ数を持ち、どれだけ複雑で、トレーニングを理解しているかを表す。一般的に数字が大きい方がモデルの性能が良いとされている。
Metaによれば、Llama 3はこのクラスで最高のオープンソースモデルだという。プロンプトへの返答に、より多様性に富む回答を示すようになり、質問への回答を拒否する偽の拒否が少なくなり、よりよく推論できるようになっているという。また、以前よりも多くの命令を理解し、出力されるコードも精度が上がっているようだ。
Metaが発表したベンチマークでは、一般的な知識を測定するMMLUベンチマークでは、Llama 3 8BはGemma 7BとMistral 7Bの両モデルを大きく上回り、Llama 3 70BはGemini Pro 1.5をわずかに上回った。ただし、Claude 3 OpusやOpenAIのGPT-4 Turboなどの主要モデルには遅れをとっている。
Metaによると、人間による評価でもLlama 3をOpenAIのGPT-3.5を含む他のモデルよりも高く評価したという。Metaは、Llama 3が使用される可能性のある実世界のシナリオをエミュレートするために、人間の評価者のために新しいデータセットを作成したという。このデータセットには、助言を求める、要約する、創造的な文章を書くといった使用例が含まれている。同社によると、このモデルを開発したチームはこの新しい評価データにアクセスすることはなく、モデルの性能に影響を与えることはなかったという。とは言え、Meta自身がこのテストを考案したことを考えると、その点は割引いて見た方が良いかも知れない。
15兆トークンを使ったトレーニング
性能の飛躍的向上は、膨大な数のトレーニングデータによるところが大きい。Llama 3は、すべて一般公開されているソースから入手した、なんと15兆以上のトークンで事前にトレーニングされているという。このデータセットはLlama 2の7倍の大きさで、4倍のコードを含んだものだ。データの5%以上は英語ではなく、30以上の言語をカバーしているが、とはいえ、Metaによれば、これらの言語での英語と同じパフォーマンスはまだ期待できないと言う。
アーキテクチャの面では、MetaはDecoderのみのTransformerをベースにしており、128,000のトークンの語彙を持つ、より効率的なTokenizerを使用している。しかし、最初の2つのモデルは8,000トークンのコンテキストウィンドウしか持たない。なお、Llama 3 8Bの知識は2023年3月、Llama 70Bは2023年12月時点に基づくという。
Llama 3を安全かつ責任を持って使用するために、MetaはLlama GuardとCybersec Evalのアップデート版や、言語モデルによる安全でないコードの出力に対するガードレールとして機能する新しいCode Shieldなど、いくつかの新しいツールを提供している。
更に巨大な4000億パラメータモデルも開発中
今日リリースされたモデルはLlama 3の一部であり、Metaは、多言語対応、より長いコンテキストウィンドウ、、”画像を生成する”や “音声ファイルを書き起こす”といったマルチモーダルな応答などの新機能を備えた追加モデルを数ヶ月以内にリリースする予定であることを明かしている。Metaによると、Llama 3シリーズの最大のモデルは4000億以上のパラメーターを持ち、まだトレーニング段階にあるという。Metaはまた、Llama 3のトレーニングが完了したら、詳細な研究論文を発表する予定だ。Meta社が400Bモデルの最近のスナップショットから共有したいくつかの予備的ベンチマークによれば、最大のモデルはGPT-4レベルに達する可能性があるとのことだ。
Llama 3モデルは間もなく、AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM、Snowflakeで利用可能になり、AMD、AWS、Dell、Intel、NVIDIA、Qualcommのハードウェア・プラットフォームをサポートする。これらはMetaのLlama 3ページからもダウンロード可能だ。
また、Llama 3はFacebook、Instagram、WhatsApp、Messenger、Web上でMetaのMeta AIアシスタントを動かす事にも使われるとのことだ。
Source
コメント