推論リクエスト1件あたりの電力消費は、LLM(大規模言語モデル)サービスの採算と普及速度を左右する根本的な制約だ。GPUのレンタルコストがサービス収益を圧迫し、NVIDIAへの依存が調達リスクに直結している現実は、AIサービスを運営するすべての事業者が直面している。OpenAIはこの問題に正面から取り組むため、NVIDIAのGPUを借り続ける道を捨てた。推論に特化したシリコンをゼロから設計し、業界標準の1.5〜2年と比較してわずか9ヶ月で量産段階に到達させたのだ。2026年6月24日に公開された「Jalapeño(ハラペーニョ)」がそれだ。この異例のスピードを可能にした背景には、OpenAI自身のモデルを設計ツールとして使うサイクルがあり、AIがAIインフラを加速する新しい開発手法の実証例として業界の注目を集めている。
9ヶ月で量産テープアウト:AIがチップ設計を加速した仕組み
カスタムASIC(特定用途向け集積回路)の開発サイクルが長い理由は、設計検証の反復にある。チップの動作はシリコンを実際に焼いてみるまで最終確認できないため、設計エラーが発覚するたびに数ヶ月単位のやり直しが発生する。従来のチームは大量のシミュレーション実行と人力レビューでこのリスクをカバーしてきた。
OpenAIはこのボトルネックに自社のモデルを投入した。Greg Brockman氏(OpenAI社長・共同創業者)は「私たちのモデルがどれほどこのプロセスを加速できたか、非常に驚かされた」と述べている。具体的な用途は公式発表に詳細がないが、設計候補のトレードオフ分析・ドキュメント整合性確認・検証スクリプトの生成などがモデルの得意とする領域に重なる。人間のエンジニアが週単位で行っていた作業を時間単位に圧縮できれば、9ヶ月という数字は不可能ではない。
Jalapeñoが量産されると、OpenAIのサービス収益が改善する。推論コストの削減は直接利益に反映され、その利益が次世代モデルの学習コンピュートと次世代チップ開発に再投資される。その次世代チップの設計にはさらに強力なAIモデルが使われる。こうした正のフィードバックループは「AIがAIインフラを加速する」実証例として業界が注目する。OpenAI自身がこのフライホイールを意図的に設計しているかどうかは今後明らかになる。
BroadcomはすでにGoogle(TPU)、Meta(MTIA)、Anthropicなど5社以上のカスタムASIC設計に関与しており、2026年Q1のAI関連売上は前年比106%増の84億ドルに達した実績がある。
OpenAIが最初からBroadcomを選んだのは、ゼロから半導体チームを構築するより熟練したシリコン実装パートナーを使う方が現実的だったからだ。この協業関係が9ヶ月という開発期間を下支えした。
3社協業の内部構造:OpenAI・Broadcom・Celesticaの役割分担
Jalapeñoは3社それぞれが担う機能を明確に分けて開発された。OpenAIがLLMワークロードの要件定義とチップアーキテクチャ設計を主導し、AI自身を設計加速に投入したのが第1層だ。Broadcomがシリコン実装——回路設計からマスク製造・プロセスエンジニアリングまで——とTomahawkネットワーキングシリコンを担当したのが第2層、Celesticaがボード・ラック・システム全体の統合を引き受けたのが第3層となる。
NVIDIAのGPUを使う場合、推論パターンに関する設計選択の余地はない。OpenAIのカスタムASICでは、どのメモリアクセスパターンを優先するか、どのネットワーク帯域を確保するかをOpenAI自身が決定できる。ワークロード特性を最もよく知る組織が設計の主導権を持つ原則に基づいた分業であり、純粋なシリコン受託製造とは本質的に異なるモデルだ。
人材面では、元NVIDIAのチップ設計エンジニアJohan Ballagh氏を副社長(シリコンエンジニアリング)として採用しており、社内にシリコン設計能力を蓄積する意図も明確だ。Broadcomへの依存が今後の世代でどこまで変化するかが注目点になる。
Jalapeñoの技術仕様:推論専用ASICが実現するもの
既存のデータセンター向けGPUは、元来グラフィクス演算を起源とする汎用アクセラレーターだ。LLM推論に使う場合、全機能を活かせるわけではなく、データ移動と帯域の無駄が生じやすい。Jalapeñoはこの非効率を排除するために、LLM推論が要求するカーネル・メモリアクセスパターン・ネットワーキングだけを最適化したゼロベース設計を採った。
アーキテクチャの中心に置かれたのはHBM(高帯域幅メモリ)だ。Tom's Hardwareの推計では、コンピュートチップレットは約840mm²——EUV(極端紫外線)露光の理論上限858mm²に近いフルレチクルサイズで、6基のHBM3/4モジュールを搭載する(この数値はOpenAI公式未確認)。フルレチクルサイズのASICはシリコン面積を最大限使い切る設計で、同じ製造プロセスにおいて帯域幅とコンピューティング密度を両立させる選択肢として有効だ。
Richard Ho氏(OpenAIハードウェアプログラム責任者)は「Jalapeñoは最重要ワークロードをハードウェアの理論限界に近い効率で実行する」と述べている。エンジニアリングサンプルはすでに生産目標の動作周波数・消費電力でMLワークロードを実行し、OpenAIの最新モデルGPT-5.3-Codex-Sparkの動作も確認されたと発表されている。ネットワーキング側ではBroadcom製Tomahawkシリコンを採用し、チップ間通信のレイテンシも最適化されている。
「コスト50%削減」の実態:確定した事実と今後の検証
BloombergへのインタビューでBroadcom CEOのHock Tan氏は「現行GPUと比較して推論トークンあたりのコストを約50%削減する」と発言した。OpenAIの公式プレスリリースでは「大幅な性能/電力比向上」という表現に留まっており、比較対象のGPU世代・測定条件・独立検証は現在実施されていない。OpenAIは「数ヶ月以内に技術レポートを公開する」としており、具体的な性能数値はその発表で明らかになる。
コスト削減が実現した場合、コスト構造全体への波及には時間がかかる。2026年末の展開はCNBCが報じるように「小規模プロトタイプ」から始まり、本格的な立ち上げは2027年、フル稼働は2028年前半が見通しとされる。OpenAIの公式発表は「2026年末に展開開始」と述べているが、これはフル稼働を意味しない。Hock Tan氏自身が「Microsoftおよびその他のパートナーとのギガワット規模展開を2026年から可能にする」と述べており、規模の拡大は複数年にわたる計画だ。
NVIDIAとの共存:推論はJalapeño、学習は依然NVIDIA——多層調達の現実
Jalapeñoが担うのは推論(ユーザーからのリクエストに応答する処理)に限られる。モデル学習(新しいモデルを生み出すための大規模並列計算)には、引き続きNVIDIA H100/B200/GB200といったGPUが必要だ。学習処理は汎用的な行列演算を膨大な並列度で実行するため、推論向けに最適化されたASICより柔軟性の高いGPUのほうが適している。
OpenAIの調達戦略はすでに多層的だ。NVIDIA GPU群に加え、2026年1月にはCerebras(ウェハースケールチップ)と750MW・2兆円超規模の多年契約を締結している。Jalapeñoはその上に加わる第3のレイヤーになる。各計算フェーズに最適なシリコンを当てがう戦略は、一つのベンダーへの集中リスクを下げると同時に、調達・運用の複雑さをも増す。
Broadcomの側から見れば、JalapeñoはGoogle TPUやMeta MTIAと並ぶカスタムXPUポートフォリオの拡充だ。Hock Tan氏は6社の顧客からの需要が「単純に飽くことを知らない」と表現しており、AI向けカスタムシリコン市場は今後数年間で急拡大が見込まれる。Broadcom自身は2027年のAIチップ年間売上目標として1,000億ドルを掲げており、OpenAIとの提携はその中核の一つに位置づけられる。
大規模LLMを日常的に提供するほぼすべての事業者が「どのワークロードをどのシリコンで実行するか」という最適配分の判断を迫られる時代に入った。OpenAIが9ヶ月で示した設計サイクル短縮と、AIを設計ツールとして使うアプローチは、その判断を下すスピードを業界全体で引き上げていく。