米国時間の2026年1月27日、AIロボティクス企業のFigure AIは、同社のヒューマノイドロボット制御モデルの最新版となる「Helix 02」を発表した。
昨年公開された初代Helixが「上半身の視覚制御」に留まっていたのに対し、Helix 02は「全身の自律制御」を単一のニューラルシステムで実現していると言う点で、飛躍的な進歩を遂げている。特に、従来のロボット工学が長年依存してきた10万行を超えるC++の制御コードを排除し、人間の動きを学習したニューラルネットワーク(System 0)に置き換えた点は、産業界における「制御の特異点」と言える出来事だ。
「4分間の連続自律稼働」が示す意味
Figure AIが公開したデモンストレーション映像は、これまでのロボットデモとは質が異なる。そこには、事前にプログラムされた完璧な振り付けも、舞台裏での遠隔操作(テレオペレーション)もない。
映し出されているのは、Figureのロボットがキッチンで「食器洗い機のドアを開け、中の食器を取り出し、キッチンを横断して棚に片付け、汚れた食器をセットして洗浄を開始する」という一連のタスクだ。
この4分間に及ぶシーケンスは、61の個別動作から成り、一度のリセットも人間の介入もなく完遂されている。これを実現しているのが、Helix 02の核心である「Pixels-to-Whole-Body(画素から全身へ)」のアプローチである。
ロボティクスの長年の課題:移動と操作の分断
これまで、ヒューマノイドロボットにとって「歩くこと(Locomotion)」と「手を使うこと(Manipulation)」は、水と油のように混ざり合わない課題だった。
- 従来の解決策: 足は足の制御器、手は手の制御器で動かす。その結果、ロボットは「歩いて、止まって、バランスを安定させてから、手を伸ばす」という、断続的で不自然な動き(ステートマシンによる切り替え)を余儀なくされていた。
- Helix 02の解決策: 「Loco-manipulation」という概念の下、移動と操作を単一の連続的な挙動として統合した。
公開された映像の中で、ロボットが手に壊れやすい食器を持ったまま歩行し、手が塞がっているために腰(ヒップ)を使って引き出しを閉め、足先で食器洗い機のドアを持ち上げるシーンがある。これはプログラムされた動作ではなく、全身を一つの「道具」として協調させる能力が発現した結果だ。
System 0:C++から「学習された身体性」への転換
Helix 02のアーキテクチャで最も注目すべきは、最下層に新設された「System 0(S0)」の存在である。
109,504行のコードを削除
従来のロボット制御では、歩行時のバランス維持や外乱への対応のために、膨大な量の物理計算と手書きのC++コード(モデルベース制御)が必要だった。しかし、System 0はこのアプローチを根本から覆した。
Figure AIは、10万9504行に及ぶ手書きのC++コードを削除し、代わりに人間の動作データ(1,000時間以上)と強化学習(RL)によって訓練された単一のニューラルネットワークを採用した。
- 機能: 全身のバランス、接触、協調動作を制御。
- 周期: 1kHz(1秒間に1000回)の高速ループで実行。
- 入力/出力: 全身の関節状態とベースの動きを入力とし、アクチュエータへの指令値を直接出力する。
- 学習基盤: 20万以上の並列シミュレーション環境でドメインランダム化(物理定数などをランダムに変える手法)を用いて訓練され、Sim-to-Real(シミュレーションから現実へ)の壁を越えている。
これは、ロボットに「歩き方の物理方程式」を教えるのではなく、人間がどのようにバランスを取っているかの「直感」をインストールすることに等しい。これにより、エンジニアが想定していなかったような複雑な姿勢制御や、外乱に対するリカバリーが可能になる。
3層のニューラル階層構造
Helix 02は、このSystem 0を基盤として、以下の3つのシステムが異なる時間スケールで連動する階層構造を持っている。
System 2 (S2): 意味理解と推論(The Planner)
- 役割: 長期的な目標設定、言語理解、シーンの解釈。
- 進化点: 以前のような「ケチャップを取れ」といった単純命令だけでなく、「食器洗い機まで歩いて開けろ」「ボウルをカウンターに運べ」といった、移動と操作を含む複合的な指示を理解し、セマンティックな指令(Latents)を生成する。
- 思考速度: 遅い(熟考型)。
System 1 (S1): 視覚運動ポリシー(The Policy)
- 役割: 知覚を行動に変換する。S2からの指令を受け取り、全身の関節目標値を生成する。
- 進化点: 「All sensors in, all joints out(全センサー入力、全関節出力)」を実現。
- 入力: 頭部カメラだけでなく、掌(手のひら)カメラ、指先の触覚センサー、全身の固有受容感覚(Proprioception)を統合。
- 出力: 足、胴体、腕、手首、指の動きを含む全身制御。
- 思考速度: 200Hz(高速な反射)。
System 0 (S0): 全身コントローラ(The Controller)
- 役割: S1が出力した目標値を、物理的に破綻しないよう(転倒しないよう)に1kHzで補正・実行する。いわばロボットの「小脳・脊髄」にあたる。
Figure 03ハードウェアとの融合:触覚と視覚の拡張
Helix 02の性能は、ハードウェアである「Figure 03」に搭載された新たなセンサー群によって解放された。
パームカメラと触覚センサーの威力
従来のロボットアームは、物体を掴む際に頭部のカメラに依存していたが、これには致命的な弱点があった。「手が物体に近づくと、手自体が邪魔で対象物が見えなくなる(オクルージョン)」という問題だ。
Figure 03は、手のひらにカメラ(Palm cameras)を搭載し、指先に触覚センサーを埋め込むことでこれを解決した。Helix 02のニューラルネットは、これらのセンサー情報を初めて統合している。
- 3グラムの感度: クリップを感じ取れるほど繊細な触覚により、物体を握りつぶさずに把持する力加減が可能になった。
- 視覚なき操作: 頭部カメラから見えない位置にある物体でも、手元のカメラと触覚だけで操作できる。
微細操作(Dexterity)の実証
Figure AIは以下のタスクで、この「指先の知能」を証明している。
- ボトルのキャップ開栓: ボトル本体を安定させつつ、キャップを滑らせずに回転させるトルク制御。
- 錠剤の取り出し: ピルケースのような小さな区画から、頭部カメラからは見えない小さな錠剤を、指先の感覚だけでつまみ出す。
- 注射器の操作: 正確に5mlの液体を押し出す。プランジャーの抵抗変化を感じ取りながら、一定の力をかけ続ける高度な制御。
- 部品の選別: 重なり合った金属部品の山(BotQ製造ライン)から、特定の部品を認識し、絡まりを解きながら取り出す。
これらは、従来の「位置決め制御」だけでは不可能なタスクであり、触覚フィードバック(Force-modulated grasping)がニューラルネットに組み込まれたからこそ実現した挙動だ。
ロボット開発は「コーディング」から「データセット」の競争へ
Helix 02の発表が示唆する最も重要な事実は、人型ロボットの開発競争のルールが変わったということだ。
これまでは、いかに優れた制御理論を構築し、精緻なC++コードを書くかが競争の焦点だった。しかし、System 0の成功は、「高品質な人間の動作データ」と「大規模なシミュレーション環境」を持つ者が勝つという、AI特有のパラダイムへの移行を決定づけている。
10万行のコードを捨て去るという決断は容易ではない。しかし、それにより得られたのは、未知の環境やタスクに対する汎用性と適応力だ。4分間の自律稼働において、ロボットが数ミリ単位の指先の動きと、数メートル規模の移動を同じニューラルネットワーク内で矛盾なく処理している事実は、このアプローチの正当性を強く裏付けている。
Tesla(Optimus)やBoston Dynamicsなどの競合がひしめく中、Figure AIは「全身制御のEnd-to-End学習」を製品レベルで実装し、それを長時間タスクで実証したという点で、一歩先んじたと言えるだろう。ロボットはもはや、人間がプログラムする機械ではなく、人間から動きを学ぶ知的生命体へと進化のフェーズを移している。
Sources