現代のAIは、人や産業のあらゆる場面に入り込み、計算基盤の質がそのまま体験の質に跳ね返ります。NVIDIAが示した「Vera/Rubin」は、その計算基盤を一段引き上げる統合型の設計思想です。Arm系のカスタムCPU「Vera」と、次世代GPU「Rubin」を密に結び、メモリや相互接続まで含めて全体最適を図ることで、従来のボトルネックを大きく削ります。2026年後半の企業向け展開が計画されており、開発や運用の現場で扱うモデル規模や応答性の水準を更新していきます。
Vera/Rubinプラットフォームとは?AI計算の新たな統合形態
個々の部品を繋ぐのではなく、CPU・GPU・メモリ・相互接続を一体で設計するのがこのプラットフォームの核です。中心となるRubin GPUはBlackwell後継の世代で、長文脈の推論や生成タスクを強く意識した設計です。Vera CPUはNVIDIAが独自設計したArmコアを88個搭載し(176スレッドという報道もあります。推測です)、GPUの前後処理や制御を含むCPU側の仕事を最短経路で連携させます。CPUとGPUはチップ間インターコネクトで直結され、データ移動の遅延を抑えます。
この世代では、ラック全体の標準構成「Vera Rubin NVL144」が提示されています。後述のとおり、推論に適した4ビット浮動小数(NVFP4)精度で3.6 EFLOPS級の計算性能、HBM4ベースの大容量・高帯域メモリ、そして次世代のNVLink/NICでラック内外の通信を引き上げます。さらに、超長文脈の推論向けに「Rubin CPX」という専用アクセラレータを組み合わせる構成(NVL144 CPX)も用意され、長文脈の「文脈処理」と生成フェーズを分業する設計が採られています。
技術仕様と性能特性:計算能力とメモリ帯域幅の革命
標準のVera Rubin NVL144は、NVFP4精度で3.6エクサフロップスの計算性能を目標に掲げています。搭載メモリは合計で約75TB、メモリ帯域幅はラックあたり約1.4PB/sとされています。これらは現行Blackwell世代のNVL72に対して大幅な伸びで、トレーニングと推論の両面で実行時間を短縮します。
超長文脈の推論に特化したNVL144 CPX構成では、Rubin CPXアクセラレータを追加し、ラックあたりNVFP4で約8エクサフロップス、メモリは約100TB、帯域は約1.7PB/sまで引き上げられます。Rubin CPX単体はNVFP4で最大30 PFLOPS級の性能とGDDR7メモリを持ち、注意機構などの文脈処理を高速化します。GPU側はHBM4の採用で帯域密度と容量を伸ばし、長文脈や高解像度生成といったメモリ律速の場面で詰まりを緩めます。
Rubin GPUあたりのHBM4容量については288GBという報道が複数見られます(公称の最終数値は今後の正式資料を待ちます。推測です)。Rubin自体のFP4性能は1チップあたり最大50 PFLOPS級という解説もありますが、これは報道ベースであり、正式スペックは量産時点の公表が確定情報になります(推測です)。
製造プロセスと出荷予定:最先端技術の結晶、その未来像
Rubin GPUとVera CPUはテープアウトを完了し、TSMCで製造が進んでいます。世代としては3nmクラスのプロセスやHBM4の採用が見込まれ、2026年後半の展開を想定した工程で動いています。Blackwell世代はTSMCアリゾナ工場での生産も公表されましたが、高度な先端プロセスやパッケージングの主力は当面台湾側が中心という整理が各報道でなされています。Rubinの米国内製造がどの範囲まで広がるかは、今後のTSMC側の工程整備と合わせて注視が必要です(推測です)。
NVIDIAの戦略的ロードマップ:未来への確かな一歩
NVIDIAは年次で主要コンポーネントを更新する方針を強調しており、Blackwell Ultra(2025年)、Rubin(2026年後半)、Rubin Ultra(2027年)という見通しを示しています。次の大枠としてFeynmanも示唆されており、企業側はこの更新リズムを前提に導入計画を立てやすくなりました。Rubin世代では、CPU・GPU・相互接続・ネットワークを含む「システム全体の同期進化」という色合いがより強まっています。
実装形態とシステムアーキテクチャ:ギガワット規模のAI工場
Vera Rubin NVL144は、液冷を前提としたモジュール設計で、MGXエコシステムの多数のパートナーが順次対応を進めています。中央ミッドプレーンなどの工夫で組立や保守を簡略化し、NICやCPXの増設でワークロードに合わせて段階的に伸ばせます。NVIDIAはこのラックアーキテクチャをOpen Compute Projectへ寄贈する方針を表明しており、ベンダーロックインの懸念を下げつつ、広い採用を促す流れになっています。800V直流給電などの電源アーキテクチャも並行して議論が進み、ギガワット級のAIファクトリー像が具体化しています。
対応するAIワークロード:AIの可能性を無限に広げる
このプラットフォームは、長コンテキスト推論と生成の両フェーズを見据えた設計です。NVL144だけでも大規模モデルの学習・推論を加速できますが、NVL144 CPXでは文脈処理の山をRubin CPXに逃がすことで、百万トークン級の長文脈でも処理落ちしにくくします。長時間ビデオ理解や生成、コードベース全体の解析、マルチエージェント推論、大規模シミュレーションなど、メモリ容量・帯域と相互接続が同時に問われる領域で効果を発揮します。
技術的革新と差別化要因:NVIDIAの戦略的優位性
VeraのカスタムArmコア(Olympus)とRubinの密結合、NVLink C2Cの広帯域接続(1.8TB/s級の帯域が報じられています)により、CPU-GPU間のデータ移動を短くし、処理の詰まりを軽減します。HBM4の採用とラック内のNVLink/NVSwitch・CX9 SuperNIC・Spectrum-X系の組み合わせで、計算だけでなくデータの動脈も太くします。結果として、従来は帯域や容量で諦めていたユースケースを現実的な時間とコスト感で回せるように設計されています。
調査結果の要点と未解決の要素:未来への展望と課題
Vera/Rubinは、ラック単位で見るとNVL144で3.6EFLOPS/75TB/1.4PB/s、長文脈特化のNVL144 CPXで8EFLOPS/100TB/1.7PB/sという整理ができます。RubinとVeraはテープアウト済みで、2026年後半の展開に向けた製造が進んでいます。OCPへの寄贈や液冷前提の設計は、導入側の自由度と持続可能性を高めます。
一方で、チップ単位の最終公称スペック(例:RubinのFP4上限やHBM4容量の確定値)、電力効率の実測、価格や供給見通し、米国内での3nm/HBM4パッケージングの工程分散などは、今後の公式資料や量産段階での公表を待つ必要があります。記事中の一部数値は業界紙・技術メディアの報道に基づく暫定情報であり、最終製品段階で変更される可能性があります(推測です)。
FAQ
Vera/Rubinプラットフォームは具体的に何が新しいのですか?
CPUとGPU、メモリ、相互接続を一体設計し、ラック単位で長文脈推論や生成を支える構成を用意した点です。標準のNVL144に加え、文脈処理専用のRubin CPXを加えたNVL144 CPXで長文脈のボトルネックを下げます。
Vera CPUとRubin GPUの役割は?
Rubin GPUが並列計算を担い、Vera CPUが前後処理や制御を含めた役割を高帯域で連携します。両者はチップ間接続で緊密に結ばれ、データ移動の遅延を抑えます。
どのようなワークロードに向いていますか?
百万トークン級の長文脈推論、長時間ビデオの理解や生成、コードベース全体の解析、マルチエージェント推論、大規模シミュレーションなど、メモリと帯域の両方が効く領域に向きます。
いつ使えるようになりますか?
RubinとVeraはテープアウト済みで、2026年後半の企業向け展開が示されています。詳細や地域別の供給体制は今後の公式情報を確認する必要があります。
参考
- NVIDIA Unveils Rubin CPX: A New Class of GPU Designed for Massive-Context Inference
- NVIDIA Rubin CPX Accelerates Inference Performance and Efficiency for 1M-Token-Context Workloads
- NVIDIA, Partners Drive Next-Gen Efficient Gigawatt AI Factories (NVIDIA Blog)
- Nvidia Brings Open-Source Innovation to AI Factories (eWEEK)
- From Blackwell Ultra to Vera Rubin CPX Architecture (StorageReview)
- NVIDIA’s Rubin GPU and Vera CPU taped out, in fab at TSMC (Tom’s Hardware)
- Everything Nvidia announced at GTC 2025 (Reuters)
- Nvidia reveals Vera CPU with custom cores (PC Gamer)
- Nvidia Disaggregates Long-Context Inference (The Next Platform)