AIデータインフラを手掛けるスタートアップEncordが、世界最大級となるオープンソースのマルチモーダルデータセット「EMM-1」と、単一のGPUでわずか数時間のうちに高性能なマルチモーダルAIモデルを訓練可能にする新手法「EBind」を発表した。これは、これまで巨大な計算資源を持つビッグテックの独壇場であった最先端AIモデル開発の門戸を、より多くの開発者に開く可能性を秘めた動きだ。
AI開発の新たな地平を切り開くEncordの挑戦
現代のAI開発、特に複数のデータ形式(モダリティ)を同時に扱うマルチモーダルAIの分野は、膨大なデータと計算能力(コンピュートパワー)を必要とし、そのコストは中小企業や研究機関にとって大きな障壁となってきた。OpenAIやGoogleといった巨大企業が、数千、数万個のGPUクラスタを駆使してモデルを訓練する一方、多くのプレイヤーは競争の土俵に上がることさえ困難な状況にあった。
こうした現状に一石を投じるのが、Encordが発表した2つの核心的な資産だ。
- EMM-1データセット: テキスト、画像、動画、音声、3D点群という5つのモダリティにまたがる、10億のデータペアと1億のデータグループからなる世界最大級のオープンソースマルチモーダルデータセット。
- EBind訓練手法: データセットの「質」を最大限に活用することで、計算資源への依存を劇的に低減する革新的なモデル訓練アプローチ。
Encordの共同創業者兼CEOであるEric Landau氏は、「マルチモーダルAIは我々の業界における次の大きな飛躍だ」と語る。同社の試みは、AI開発のパラダイムを「計算資源の力比べ」から「データ品質と戦略の勝負」へと転換させる狼煙となるかもしれない。
世界最大級、オープンソースのマルチモーダルデータセット「EMM-1」
今回発表された取り組みの中核をなすのが、オープンソースとして公開されるマルチモーダルデータセット「EMM-1」である。その特徴は、単なる規模の大きさだけにとどまらない。
圧倒的な規模と多様性
EMM-1の規模は、既存の公開データセットを凌駕する。
- データペア: 10億組
- データグループ: 1億組
- モダリティ: 5種類 (テキスト、画像、動画、音声、3D点群)
Landau氏によれば、EMM-1は比較対象となる次の規模のデータセットに比べて100倍の大きさを持つという。 これだけの規模と多様性を持つデータセットがオープンソースで提供されることの意義は大きい。これにより、開発者は人間が五感で世界を認識するように、より複雑でニュアンスに富んだ文脈を理解できるAIモデルの構築を目指せるようになる。
「データ品質」への徹底的なこだわり
しかし、特に注目すべきだと考えるのは、その規模よりもむしろ「品質」への執念だ。AIモデルの性能は、訓練データの質に大きく左右される。特に、多くの公開データセットが抱える根深い問題が「データリーク」だ。これは、モデルの性能を評価するためのテストデータの一部が、意図せず訓練データに混入してしまう現象を指す。データリークが発生すると、モデルは見かけ上高い性能を示すが、それは未知のデータに対する真の実力ではなく、単に「答えを知っていた」に過ぎない。
VentureBeatの取材に対し、Landau氏はこの問題への取り組みを強調している。
「リークの問題は、我々が多くの時間を費やした問題の一つでした。多くのデータセットでは、データのサブセット間で一種のリークが存在します。リークは実際には結果を押し上げ、評価を良く見せます。しかし、我々はこの点に非常に注意を払いました」。
Encordは、このリーク問題を回避するため、階層的クラスタリングといった技術を駆使し、訓練データと評価データがクリーンに分離されるよう細心の注意を払った。これは、モデルの性能を公正かつ厳密に評価するための基盤であり、データセットの信頼性を担保する上で不可欠なプロセスである。
革命的な訓練手法「EBind」の技術的深層
この高品質なデータセット「EMM-1」のポテンシャルを最大限に引き出すために開発されたのが、訓練手法「EBind」だ。その成果は驚異的であり、AI開発のコスト構造を根底から覆す可能性を示唆している。
なぜ単一GPU、数時間で訓練可能なのか?
EBindの核心思想は、「計算能力よりもデータ品質がモデル性能を決定づける」という点にある。Encordの内部研究によれば、EBindを用いることで、わずか18億パラメータの比較的小さなモデルが、最大で17倍も大きなパラメータを持つ競合モデルの性能を上回ったという。 しかも、その訓練に要した時間は、大規模なGPUクラスタではなく、単一のGPUでわずか数時間だったとされる。
この効率性を実現する技術的な鍵は、「モダリティごとに単一のエンコーダーを用いる」というシンプルなアーキテクチャにある。エンコーダーとは、画像やテキストといった様々な形式のデータを、AIが処理しやすい共通の数値表現(ベクトル)に変換する機構だ。
競合する他の手法では、例えば画像とテキスト、音声と動画といったモダリティーの組み合わせごとに別々の専用モデルを用意し、入力に応じて最適なモデルに処理を振り分ける(ルーティングする)アプローチが取られることがある。この方法は柔軟性が高い一方で、システム全体のパラメータ数が爆発的に増加し、膨大な計算資源を必要とする。
対してEBindは、ベースとなるモデルは一つとし、各モダリティに対応するエンコーダーを追加するだけの極めてパラメータ効率の高い設計を採用した。Landau氏はこのアプローチについて次のように説明している。
「我々は、非常に質の高いデータを提供すれば、単一のベースモデルとモダリティごとに一つのエンコーダーを訓練するだけで済むことを見出しました。これにより、アーキテクチャを非常にシンプルかつパラメータ効率の高い状態に保つことができたのです」。
OpenAIの「CLIP」を5つの感覚に拡張
このEBindのアーキテクチャは、OpenAIが開発した「CLIP (Contrastive Language-Image Pre-training)」の概念を拡張したものと理解できる。CLIPは、大量の画像とそれに付随するテキストのペアを学習することで、「猫の写真」というテキストと実際の猫の画像を、AIの理解空間内で関連付けることを可能にした画期的な技術だ。
EBindは、この画像とテキストという2つのモダリティの関係性を学習するアプローチを、画像、テキスト、音声、3D点群、動画という5つのモダリティにまで広げたものと言える。これにより、AIはより多角的なデータ間の関連性を学び、例えば「車のクラクションが鳴っている交差点の映像」と「クラクション」という音声、そして「交差点」という3D空間データを統合的に理解できるようになる。
ただし、Encordの主張する性能については留意点もある。この17倍のモデルを凌駕したという研究結果はまだ査読付きの論文として公開されておらず、第三者による客観的な検証が待たれる段階だ。
マルチモーダルAIがもたらす産業へのインパクト
EBindとEMM-1データセットがもたらす変革は、研究開発の現場にとどまらない。むしろ、その真価は実社会の様々な産業で発揮されるだろう。
企業データ活用の変革
多くの企業では、データがその形式ごとに異なるシステムに分散・隔離(サイロ化)されているのが実情だ。契約書は文書管理システムに、顧客との通話記録は音声データとして、研修資料は動画として、それぞれ別の場所に保管されている。
マルチモーダルAIは、これらのサイロ化されたデータを横断的に検索し、文脈を理解することを可能にする。例えば、法律事務所の弁護士が、ある訴訟案件に関する「動画証拠」「関連文書」「証言の録音」を一度に検索し、関連性の高い情報を瞬時に引き出すといった活用が考えられる。 同様に、金融機関では取引記録とコンプライアンス関連の通話記録を紐づけ、ヘルスケア分野では患者の医用画像と電子カルテ、診察時の音声を統合して診断精度を高める応用が期待される。
事例:Captur AIが描く未来
Encordの顧客であり、今回のデータセットに早期アクセスした英国のAIスタートアップCaptur AIの事例は、その可能性を具体的に示している。同社は、スマートフォンなどのデバイス上でリアルタイムに画像を検証する技術を提供しており、ライドシェアサービスにおける車両の写真確認や、配送サービスでの荷物の写真認証などに利用されている。
同社CEOのCharlotte Bax氏は、マルチモーダル化が事業を次のステージに引き上げる鍵だと見ている。 彼女が挙げるのは、自動車保険の損害請求のユースケースだ。
「顧客が車両の損傷を写真で撮影する際、何が起こったのかを口頭で説明することがよくあります。音声によるコンテキストは、請求の正確性を大幅に向上させ、不正を減らすのに役立ちます。」
ユーザーが「縁石にぶつかって、バンパーのこの部分がへこんだ」と話しながら損傷箇所を撮影した場合、画像だけでは伝わらない「何が起こったか」という重要な文脈を、音声データが補完する。EBindのような効率的な手法は、こうした画像と音声を組み合わせたモデルを、クラウドサーバーを介さずにスマートフォン上で直接実行するという、同社のコア技術の維持・発展に貢献すると期待されている。
「計算資源」から「データ品質」へ、AI開発のパラダイムシフト
今回のEncordの発表は、単なる新技術のリリース以上の意味を持つ。それは、AI業界における競争のルールそのものを変えようとする試みである。Encordの共同創業者兼プレジデントであるUlrik Stig Hansen氏は、次のように予測する。
「AIの進化の次のフェーズにおいて、勝利する組織は、単に計算能力のレベルを上げて問題に取り組むだけでなく、データキュレーションとデータセット構築への革新的なアプローチを採用する組織となるでしょう。」
この言葉は、これまで業界を支配してきた「より多くのGPUを持つ者が勝つ」という単純な力学からの転換を示唆している。高品質なデータを戦略的に構築し、それを効率的に学習させる知見を持つことが、新たな競争力の源泉となる。
このパラダイムシフトは、豊富な資金力を持たないスタートアップや研究機関にとって、巨大テック企業と同じ土俵で戦うための大きなチャンスとなり得る。AIイノベーションの担い手が多様化し、裾野が広がることによって、これまで生まれ得なかった新たなアプリケーションやサービスが創出されるかもしれない。
Encordが投じた一石が、AI開発の民主化という大きな波紋を広げていくのか。その真価は、オープンソースとして公開されたデータセットと手法が、世界中の開発者コミュニティによってどのように活用され、評価されていくかにかかっている。業界の今後の動向を注意深く見守りたい。
Sources