Metaが画像・動画セグメンテーションの新たな基盤モデル「SAM 2」を発表し、コンピュータ・ビジョン分野に大きな進歩をもたらしそうだ。このオープンソースモデルは、2023年4月に発表された前身のSAM(Segment Anything Model)を大幅に改良し、画像だけでなく動画のオブジェクトセグメンテーションにも対応している。精度向上と処理速度の6倍高速化を実現したSAM 2は、研究者や開発者のコミュニティに新たな可能性を提供する。
SAM 2は、ビデオと画像のセグメンテーションにおける新しい基準を設定する可能性
SAM 2の開発にあたり、Metaは新たな大規模ビデオセグメンテーションデータセット「SA-V」を構築した。このデータセットは約5万1千本の動画から成り、64万2600のマスクアノテーションを含む。これは合計3550万個の個別マスクに相当し、従来のデータセットの53倍という圧倒的な規模を誇る。約200時間分のアノテーション付き動画データを持つSA-Vは、訓練データの新たなベンチマークを設定し、モデルの性能向上に大きく貢献している。
SAM 2の構造は、前身のSAMと同様にTransformerベースのアーキテクチャを採用しているが、重要な新機能としてメモリモジュールが追加された。このモジュールは、ビデオフレーム間でオブジェクトや過去の操作に関する情報を保存する役割を果たす。これにより、長いシーケンスにわたるオブジェクトの追跡や、ユーザー入力への柔軟な応答が可能となった。画像に適用する場合、このメモリは空の状態となり、モデルはSAMと同様の動作をする。
性能面では、SAM 2は約44フレーム/秒でリアルタイムに近い処理が可能となっている。これは、動画編集やリアルタイムの物体認識など、即時性が求められる応用分野での活用を可能にする重要な特徴だ。さらに、SAM 2は従来手法と比較して、約3分の1の操作で高精度なセグメンテーションを実現している。この効率性は、特に大規模なデータセットの作成や、リアルタイムのインタラクティブなアプリケーションにおいて大きな利点となる。
ゼロショット性能も、SAM 2の特筆すべき特徴の一つである。17の未見のビデオデータセットにおいて、SAM 2は既存のアプローチを大きく上回る性能を示している。これは、モデルが新しい、見たことのない状況や対象物に対しても高い汎用性を持っていることを示唆している。
また、SAM 2を用いたビデオセグメンテーションのアノテーションは、従来の手動アノテーションと比較して8.4倍高速であることが報告されている。この効率性は、今後のコンピュータビジョン研究や応用開発において、データセット作成の時間とコストを大幅に削減する可能性を秘めている。
Metaは、SAM 2が皮膚の色や年齢に関して堅牢であり、性別間での性能の変動も最小限であると述べている。これは、AIモデルの公平性と包括性という重要な課題に対するMetaの取り組みを示すものだ。しかし、完璧なモデルではない。シーンの急激な変化や長時間の遮蔽後にオブジェクトを見失う可能性や、非常に細かい詳細のセグメンテーション、類似した複数の移動オブジェクトの個別追跡などに課題が残されている。これらの限界は、今後の研究開発の方向性を示唆している。
SAM 2の公開は、コンピュータビジョン分野に広範な影響を与える可能性がある。ロボットの現実世界での移動や相互作用の向上、生成AIビデオモデルにおける効果の制御など、幅広い分野での活用が見込まれている。例えば、自動運転車の視覚システムの改善、医療画像診断の精度向上、拡張現実(AR)アプリケーションの機能強化などが考えられる。
さらに、MetaはこのモデルをApache 2.0ライセンスの下で公開している。これにより、世界中の開発者や研究者がSAM 2を基盤として自由にイノベーションを起こすことが可能となった。この決定は、オープンサイエンスの精神を体現するものであり、AIテクノロジーの民主化と発展を加速させる可能性を秘めている。
MetaのCEOであるMark Zuckerberg氏が先週のオープンレターで述べたように、オープンソースAIは「現代のテクノロジーの中で、人間の生産性、創造性、生活の質を向上させる最大の可能性を持つ」ものである。SAM 2の公開は、この理念を具現化する重要な一歩と言えるだろう。今後、SAM 2がどのように活用され、どのような革新的なアプリケーションが生み出されるか、AIコミュニティの動向に注目が集まっている。
Source
コメント