ロボット工学企業のFigureは、同社が開発中のヒューマノイドロボット「Figure 01」の能力を強化するために結んだOpenAIとのパートナーシップの最初の成果を披露した。本日公開されたビデオでは、Figure 01が周囲の状況を認識し、リアルタイムで会話し、人間の指示に従い作業を行っている様子が映し出されている。
2023年10月までに、Figure 01はすでに立ち上がり、基本的な自律タスクをこなしていた。1月中旬にはBMWが導入を明かしていた。
Figureの開発の進展は驚異的だ。これは、画像とテキストを理解するOpenAIによって訓練されたマルチモーダルモデルにロボットを接続することで実現されている。
このモデルに接続することで、Figure 01は、その環境を説明し、日常的な状況を解釈し、非常に曖昧で文脈に依存した要求に基づいて行動を実行することができる。
ビデオに登場する行動はすべて学習されたもので、遠隔操作されたものではなく、リアルタイムな処理に基づき、通常の速度で実行される。
Figureのロボット工学・AIエンジニアであるCorey Lynch氏は、この進歩を以下のように説明している:「ほんの数年前でも、ヒューマノイドロボットが完全に学習した行動を計画し実行しながら、ヒューマノイドロボットと完全な会話をすることは、私たちが見るには何十年も待たなければならないことだと思ったでしょう。明らかに、多くのことが変わりました」。
同様のロボット工学の研究は、GoogleがすでにRTモデルで実証している。RTモデルは、ロボットが言語モデルと画像モデルの入出力に基づいて、日常的な環境をナビゲートし、複雑な行動を計画・実行することを可能にする。
Figureの創業者であるBrett Adcock氏はXの投稿で、Figure 01の内蔵カメラがOpenAIによって訓練された大規模な視覚言語モデルにデータを送信し、Figure独自のニューラル・ネットワークも「ロボットのカメラを通して10Hzで画像を取り込む」ことを明かしている。OpenAIはまた、話し言葉を理解する能力も担っており、これらの流入情報はすべて、Figureのニューラルネットによって「高速で、低レベルで、器用なロボットの動作」に変換される。ロボットの動作は、画像を直接動作に変換する視覚運動変換器と呼ばれるものによって制御される。ロボットのカメラからの画像を10Hzの周波数で処理し、24の自由度(手首の位置と指の角度)の動作を200Hzの周波数で生成する。
Lynch氏もロボットの能力について詳しく説明している。これには、視覚的経験を説明すること、将来の行動を計画すること、記憶を振り返ること、行動につながる結論を口頭で説明することなどが含まれるという。
これを達成するために、OpenAIのマルチモーダルモデルは、過去の画像を含む会話履歴全体を処理し、人間が応答できる音声応答を生成する。また、同じモデルが、与えられたコマンドを実行するためにロボットがどの学習行動を行うべきかを決定する。
例えば、ロボットは会話の過去の部分を参照し、”that”と “put that there”が何を意味しているかを判断することで、”Can you put that there? “という質問に正しく答えることができる。ある例では、その辺に転がっている食器は食器棚に入れるべきだということを理解している。
「私たちの目標は、人型ロボットを10億台レベルで操作するワールドモデルを訓練することです」とAdcock氏は述べている。
コメント