TeslaのElon Musk氏が創設したAIスタートアップ「xAI」は、同社の目指す“真にインテリジェントなAI”の実現に繋がるとする、同社初のマルチモーダルモデル、「Grok-1.5V(Grok-1.5 Vision)」を発表した。xAIによると、Grok-1.5Vはテキスト理解だけでなく、視覚機能を統合し、文書、図、表、写真などを理解することができるとのことだ。
我々は、物理的世界を理解するGrokの能力に特に期待している。Grokは、現実世界の空間理解を測定する私たちの新しいRealWorldQAベンチマークで同業他社を上回っています。
xAIによると、Grok-1.5Vは主要なベンチマークで主要な競合他社を上回っているという。これには現状最高峰であり、全てのAIモデルのベンチマークともなっているOpenAIのGPT-4Vも含まれる。
Grok-1.5Vの導入に加え、同社はRealWorldQAと呼ぶベンチマークデータセットもリリースした。RealWorldQAの700枚の画像は、AIモデルの評価に使用することができる:各項目には、簡単に確認できる質問と答えが含まれているが、マルチモーダルモデルを困らせる物もあるようだ。xAIは、OpenAIのGPT-4VやGoogle Gemini Pro 1.5のような競合他社に対してRealWorldQAでテストしたところ、同社の技術が最高得点を獲得したと主張している。
Grok-1.5Vの多面的な知覚能力については、その機能が実世界でどのように使えるか、いくつかのサンプルが示されている。例えば、フローチャートの写真を見せてGrokにPythonコードに翻訳してもらったり、絵を元にストーリーを書いてもらったり、理解できないミームを説明してもらったりすることができるという。xAIは、このような多様なタスクがGrok-1.5Vの幅広いアプリケーションへの可能性を示していると考えている。
xAIは間もなくGrok-1.5Vの最初のテスターを募集するという。選ばれたテスターは、フィードバックを提供し、マルチモーダル推論の改善に協力する。Grokベータ版へのアクセスは、XのPremium+購読者に限定されており、購読者はさらなる特典とサポートを受けることができる。
Source
コメント