xAI、OpenAIのGPT-4Vを上回ると主張する「Grok-1.5V」マルチモーダルモデルを発表

Y Kobayashi2024年4月13日更新: 2024年4月14日

約 3 分

この記事のポイント

xAIが初のマルチモーダルAI「Grok-1.5V」発表
テキストと視覚を統合し、現実世界を理解
競合他社を上回り、テスターを募集開始

xAI、OpenAIのGPT-4Vを上回ると主張する「Grok-1.5V」マルチモーダルモデルを発表

TeslaのElon Musk氏が創設したAIスタートアップ「xAI」は、同社の目指す“真にインテリジェントなAI”の実現に繋がるとする、同社初のマルチモーダルモデル、「Grok-1.5V（Grok-1.5 Vision）」を発表した。xAIによると、Grok-1.5Vはテキスト理解だけでなく、視覚機能を統合し、文書、図、表、写真などを理解することができるとのことだ。

我々は、物理的世界を理解するGrokの能力に特に期待している。Grokは、現実世界の空間理解を測定する私たちの新しいRealWorldQAベンチマークで同業他社を上回っています。

xAIによると、Grok-1.5Vは主要なベンチマークで主要な競合他社を上回っているという。これには現状最高峰であり、全てのAIモデルのベンチマークともなっているOpenAIのGPT-4Vも含まれる。

Grok-1.5Vの導入に加え、同社はRealWorldQAと呼ぶベンチマークデータセットもリリースした。RealWorldQAの700枚の画像は、AIモデルの評価に使用することができる：各項目には、簡単に確認できる質問と答えが含まれているが、マルチモーダルモデルを困らせる物もあるようだ。xAIは、OpenAIのGPT-4VやGoogle Gemini Pro 1.5のような競合他社に対してRealWorldQAでテストしたところ、同社の技術が最高得点を獲得したと主張している。

Grok-1.5Vの多面的な知覚能力については、その機能が実世界でどのように使えるか、いくつかのサンプルが示されている。例えば、フローチャートの写真を見せてGrokにPythonコードに翻訳してもらったり、絵を元にストーリーを書いてもらったり、理解できないミームを説明してもらったりすることができるという。xAIは、このような多様なタスクがGrok-1.5Vの幅広いアプリケーションへの可能性を示していると考えている。

xAIは間もなくGrok-1.5Vの最初のテスターを募集するという。選ばれたテスターは、フィードバックを提供し、マルチモーダル推論の改善に協力する。Grokベータ版へのアクセスは、XのPremium+購読者に限定されており、購読者はさらなる特典とサポートを受けることができる。

Source