テクノロジーと科学の最新の話題を毎日配信中!!

xAI、OpenAIのGPT-4Vを上回ると主張する「Grok-1.5V」マルチモーダルモデルを発表

Y Kobayashi

2024年4月13日

TeslaのElon Musk氏が創設したAIスタートアップ「xAI」は、同社の目指す“真にインテリジェントなAI”の実現に繋がるとする、同社初のマルチモーダルモデル、「Grok-1.5V(Grok-1.5 Vision)」を発表した。xAIによると、Grok-1.5Vはテキスト理解だけでなく、視覚機能を統合し、文書、図、表、写真などを理解することができるとのことだ。

我々は、物理的世界を理解するGrokの能力に特に期待している。Grokは、現実世界の空間理解を測定する私たちの新しいRealWorldQAベンチマークで同業他社を上回っています。

xAIによると、Grok-1.5Vは主要なベンチマークで主要な競合他社を上回っているという。これには現状最高峰であり、全てのAIモデルのベンチマークともなっているOpenAIのGPT-4Vも含まれる。

Grok-1.5Vの導入に加え、同社はRealWorldQAと呼ぶベンチマークデータセットもリリースした。RealWorldQAの700枚の画像は、AIモデルの評価に使用することができる:各項目には、簡単に確認できる質問と答えが含まれているが、マルチモーダルモデルを困らせる物もあるようだ。xAIは、OpenAIのGPT-4VやGoogle Gemini Pro 1.5のような競合他社に対してRealWorldQAでテストしたところ、同社の技術が最高得点を獲得したと主張している。

Grok-1.5Vの多面的な知覚能力については、その機能が実世界でどのように使えるか、いくつかのサンプルが示されている。例えば、フローチャートの写真を見せてGrokにPythonコードに翻訳してもらったり、絵を元にストーリーを書いてもらったり、理解できないミームを説明してもらったりすることができるという。xAIは、このような多様なタスクがGrok-1.5Vの幅広いアプリケーションへの可能性を示していると考えている。

xAIは間もなくGrok-1.5Vの最初のテスターを募集するという。選ばれたテスターは、フィードバックを提供し、マルチモーダル推論の改善に協力する。Grokベータ版へのアクセスは、XのPremium+購読者に限定されており、購読者はさらなる特典とサポートを受けることができる。


Source

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする