Elon Musk氏が率いるxAI社が、新たな大規模言語モデル「Grok-2」とその小型版「Grok-2 Mini」をベータ版としてリリースした。Grok 2は、高度な推論能力と画像生成機能を備えており、AI業界に新たな風を吹き込むかも知れない。
Grok-2はOpenAIのGPT 4とAnthropicのClaudeを大きく上回る性能と主張
xAIによると、Grok-2とGrok-2 Miniは前モデルのGrok 1.5から大幅に性能が向上しているという。特に推論、読解力、数学、科学、プログラミングなどの分野で顕著な改善が見られるという。これらのモデルは、大学院レベルの科学(GPQA)、一般知識(MMLU、MMLU-Pro)、数学競技課題(MATH)において、最先端のモデルと同等の性能を発揮するとxAIは主張している。
Grok-2の性能を客観的に評価するため、UC BerkeleyのLarge Model Systems Organization(LMSYS)が実施する人気のAIベンチマークが用いられた。このベンチマークでは、Grok-2の初期バージョン(コードネーム「sus-column-r」)が総合順位で3位につけ、OpenAIのGPT-4oと同スコアを記録した。特筆すべきは、プログラミング分野で2位、難しいプロンプトへの対応で4位、数学分野で2位という優れた成績を収めたことだ。
xAIの内部データによると、Grok 2はGPT-4 Turboを上回る性能を示し、GPT-4oにわずかに及ばないレベルに達している。しかし、AIモデルの性能を測るLMSYSのELOレーティングでは、OpenAIのChatGPT 4oが1,314で首位を維持しており、Grok 2の初期バージョンは1,281、Google社のGemini 1.5 Proは1,297となっている。この結果は、Grok 2が既存の強力なAIモデルに迫る性能を持つことを示唆している。
Grok-2の特筆すべき機能の一つに画像生成能力がある。初期のユーザーレポートによると、Grok-2の画像生成は他のプロバイダーよりも制限が少なく、政治的なイラストや実在の人物の画像を生成することが可能だという。これは、ChatGPTなど他の画像生成AIがそのような要求を拒否したり制限したりするのとは対照的である。
しかし、この自由度の高さは新たな懸念も引き起こしている。実在の人物、特に政治家の画像や政治的プロパガンダを容易に生成できる能力は、米国の大統領選挙を控えた現在、誤情報拡散のリスクを高める可能性がある。多くの主要なモデルプロバイダーが偽の政治的画像の生成を防ぐためにコンテンツをブロックしているのに対し、Grok-2にはそのような制限が少ないことが指摘されている。
この状況を受けて、最近、米国の州務長官たちがMusk氏に対し、X(旧Twitter)上のAI生成フェイクニュースについて質問する公開書簡を送ったという。Musk氏自身も、副大統領Kamala Harris氏のAIクローン音声でJoe Biden氏を「老衰している」と呼ぶ動画を共有し、議論を呼んでいる。
xAIは、Xプラットフォーム上でのGrokの画像生成機能を拡張するため、Black Forest LabsのFLUX.1モデルを活用する計画を明らかにしている。現在、GrokへのアクセスはXのプレミアムおよびプレミアム+ユーザーに限定されているが、今月末には開発者向けの新しいEnterprise APIを提供する予定だ。
さらに、xAIはXプラットフォーム上でのAI駆動機能の強化も計画している。改良された検索機能、投稿分析、返信機能などが含まれ、AIによる返信機能の導入も示唆されている。
Elon Musk氏は、今年後半にリリース予定のGrok 3について、「これまでで最も強力なAIシステムになる」と大胆な主張をしている。AIの進化が加速する中、Grok-2の登場は業界に新たな刺激を与え、AI技術の更なる発展と同時に、その適切な利用や規制についての議論を喚起する可能性がある。技術の進歩と倫理的配慮のバランスをどのように取るかが、今後のAI開発の重要な課題となるだろう。
Sources
- xAI: Grok-2 Beta Release
コメント