Figure AI、最新ロボット制御モデル「Helix 02」を発表：人型ロボットの「小脳」をニューラルネットで置換

米国時間の2026年1月27日、AIロボティクス企業のFigure AIは、同社のヒューマノイドロボット制御モデルの最新版となる「Helix 02」を発表した。

昨年公開された初代Helixが「上半身の視覚制御」に留まっていたのに対し、Helix 02は「全身の自律制御」を単一のニューラルシステムで実現していると言う点で、飛躍的な進歩を遂げている。特に、従来のロボット工学が長年依存してきた10万行を超えるC++の制御コードを排除し、人間の動きを学習したニューラルネットワーク（System 0）に置き換えた点は、産業界における「制御の特異点」と言える出来事だ。

「4分間の連続自律稼働」が示す意味

Figure AIが公開したデモンストレーション映像は、これまでのロボットデモとは質が異なる。そこには、事前にプログラムされた完璧な振り付けも、舞台裏での遠隔操作（テレオペレーション）もない。

映し出されているのは、Figureのロボットがキッチンで「食器洗い機のドアを開け、中の食器を取り出し、キッチンを横断して棚に片付け、汚れた食器をセットして洗浄を開始する」という一連のタスクだ。

この4分間に及ぶシーケンスは、61の個別動作から成り、一度のリセットも人間の介入もなく完遂されている。これを実現しているのが、Helix 02の核心である「Pixels-to-Whole-Body（画素から全身へ）」のアプローチである。

ロボティクスの長年の課題：移動と操作の分断

これまで、ヒューマノイドロボットにとって「歩くこと（Locomotion）」と「手を使うこと（Manipulation）」は、水と油のように混ざり合わない課題だった。

従来の解決策: 足は足の制御器、手は手の制御器で動かす。その結果、ロボットは「歩いて、止まって、バランスを安定させてから、手を伸ばす」という、断続的で不自然な動き（ステートマシンによる切り替え）を余儀なくされていた。
Helix 02の解決策: 「Loco-manipulation」という概念の下、移動と操作を単一の連続的な挙動として統合した。

公開された映像の中で、ロボットが手に壊れやすい食器を持ったまま歩行し、手が塞がっているために腰（ヒップ）を使って引き出しを閉め、足先で食器洗い機のドアを持ち上げるシーンがある。これはプログラムされた動作ではなく、全身を一つの「道具」として協調させる能力が発現した結果だ。

System 0：C++から「学習された身体性」への転換

Helix 02のアーキテクチャで最も注目すべきは、最下層に新設された「System 0（S0）」の存在である。

109,504行のコードを削除

従来のロボット制御では、歩行時のバランス維持や外乱への対応のために、膨大な量の物理計算と手書きのC++コード（モデルベース制御）が必要だった。しかし、System 0はこのアプローチを根本から覆した。

Figure AIは、10万9504行に及ぶ手書きのC++コードを削除し、代わりに人間の動作データ（1,000時間以上）と強化学習（RL）によって訓練された単一のニューラルネットワークを採用した。

機能: 全身のバランス、接触、協調動作を制御。
周期: 1kHz（1秒間に1000回）の高速ループで実行。
入力/出力: 全身の関節状態とベースの動きを入力とし、アクチュエータへの指令値を直接出力する。
学習基盤: 20万以上の並列シミュレーション環境でドメインランダム化（物理定数などをランダムに変える手法）を用いて訓練され、Sim-to-Real（シミュレーションから現実へ）の壁を越えている。

これは、ロボットに「歩き方の物理方程式」を教えるのではなく、人間がどのようにバランスを取っているかの「直感」をインストールすることに等しい。これにより、エンジニアが想定していなかったような複雑な姿勢制御や、外乱に対するリカバリーが可能になる。

3層のニューラル階層構造

Helix 02は、このSystem 0を基盤として、以下の3つのシステムが異なる時間スケールで連動する階層構造を持っている。

System 2 (S2): 意味理解と推論（The Planner）

役割: 長期的な目標設定、言語理解、シーンの解釈。
進化点: 以前のような「ケチャップを取れ」といった単純命令だけでなく、「食器洗い機まで歩いて開けろ」「ボウルをカウンターに運べ」といった、移動と操作を含む複合的な指示を理解し、セマンティックな指令（Latents）を生成する。
思考速度: 遅い（熟考型）。

System 1 (S1): 視覚運動ポリシー（The Policy）

役割: 知覚を行動に変換する。S2からの指令を受け取り、全身の関節目標値を生成する。
進化点: 「All sensors in, all joints out（全センサー入力、全関節出力）」を実現。
- 入力: 頭部カメラだけでなく、掌（手のひら）カメラ、指先の触覚センサー、全身の固有受容感覚（Proprioception）を統合。
- 出力: 足、胴体、腕、手首、指の動きを含む全身制御。
思考速度: 200Hz（高速な反射）。

System 0 (S0): 全身コントローラ（The Controller）

役割: S1が出力した目標値を、物理的に破綻しないよう（転倒しないよう）に1kHzで補正・実行する。いわばロボットの「小脳・脊髄」にあたる。

Figure 03ハードウェアとの融合：触覚と視覚の拡張

Helix 02の性能は、ハードウェアである「Figure 03」に搭載された新たなセンサー群によって解放された。

パームカメラと触覚センサーの威力

従来のロボットアームは、物体を掴む際に頭部のカメラに依存していたが、これには致命的な弱点があった。「手が物体に近づくと、手自体が邪魔で対象物が見えなくなる（オクルージョン）」という問題だ。

Figure 03は、手のひらにカメラ（Palm cameras）を搭載し、指先に触覚センサーを埋め込むことでこれを解決した。Helix 02のニューラルネットは、これらのセンサー情報を初めて統合している。

3グラムの感度: クリップを感じ取れるほど繊細な触覚により、物体を握りつぶさずに把持する力加減が可能になった。
視覚なき操作: 頭部カメラから見えない位置にある物体でも、手元のカメラと触覚だけで操作できる。

微細操作（Dexterity）の実証

Figure AIは以下のタスクで、この「指先の知能」を証明している。

ボトルのキャップ開栓: ボトル本体を安定させつつ、キャップを滑らせずに回転させるトルク制御。
錠剤の取り出し: ピルケースのような小さな区画から、頭部カメラからは見えない小さな錠剤を、指先の感覚だけでつまみ出す。
注射器の操作: 正確に5mlの液体を押し出す。プランジャーの抵抗変化を感じ取りながら、一定の力をかけ続ける高度な制御。
部品の選別: 重なり合った金属部品の山（BotQ製造ライン）から、特定の部品を認識し、絡まりを解きながら取り出す。

これらは、従来の「位置決め制御」だけでは不可能なタスクであり、触覚フィードバック（Force-modulated grasping）がニューラルネットに組み込まれたからこそ実現した挙動だ。

ロボット開発は「コーディング」から「データセット」の競争へ

Helix 02の発表が示唆する最も重要な事実は、人型ロボットの開発競争のルールが変わったということだ。

これまでは、いかに優れた制御理論を構築し、精緻なC++コードを書くかが競争の焦点だった。しかし、System 0の成功は、「高品質な人間の動作データ」と「大規模なシミュレーション環境」を持つ者が勝つという、AI特有のパラダイムへの移行を決定づけている。

10万行のコードを捨て去るという決断は容易ではない。しかし、それにより得られたのは、未知の環境やタスクに対する汎用性と適応力だ。4分間の自律稼働において、ロボットが数ミリ単位の指先の動きと、数メートル規模の移動を同じニューラルネットワーク内で矛盾なく処理している事実は、このアプローチの正当性を強く裏付けている。

Tesla（Optimus）やBoston Dynamicsなどの競合がひしめく中、Figure AIは「全身制御のEnd-to-End学習」を製品レベルで実装し、それを長時間タスクで実証したという点で、一歩先んじたと言えるだろう。ロボットはもはや、人間がプログラムする機械ではなく、人間から動きを学ぶ知的生命体へと進化のフェーズを移している。

Sources

Figure: Introducing Helix 02: Full-Body Autonomy