What`s new ?

メモリピラミッドの支配者はだれの手に?

2026年CESにて発表されたRubin、50PFLOPSの計算能力で推論コスト1/10というのに驚かされますがその6つの構成↓の中でもメモリ関連で注目されるのがHBM4だけでなく、Buluefield₋4を用いたKVキャッシュのオフロードでこの効果が大きいのかなと感じました。Rubin GPUが「計算の筋肉」、Vera CPUが「判断の脳」とするならば、BlueField-4はデータセンターという巨大な体の中を流れる「神経と血管」を管理するもので、さらなる高速化のためにLatencyと容量で構成されるメモリ階層のコントロールをシステムの中に組み込む提案を実現してきたと言うところが大きいです。BlueField-4自体18基のDPUとオンボードで512GBのSSDが積まれているのですがこちらはOS動かす向けで実際のデータオフロードはラック内に搭載しているデータ用のSSDへ実施する構成。オフロード活用が本格化していくと性能改善のためにはHBM(DRAM)だけでなくSSD(フラッシュメモリ)がさらに必要だという方向に向かうことは間違いなさそうで半導体業界全体としては良い話であるように思います。それにしてもなかなか単体の部品メーカーではこういった全体最適化というのは簡単では無く自社のみでは難しいと考えるとNVIDIAのようにBottleNeckがわかっている会社といかに協業していけるかというところが今後とも重要となっていきそうです。

チップ名役割・特徴
Rubin GPUプラットフォームの中核。HBM4メモリを初採用。
Vera CPU新設計の「Olympus」Armコアを88基搭載した高性能CPU。
NVLink 6 SwitchGPU間の帯域幅を3.6TB/s(前世代比2倍)へ拡張。
ConnectX-9 SuperNIC1.6Tb/sの超高速ネットワークインターフェース。
BlueField-4 DPUデータ処理とセキュリティを担う。推論コンテキストの保存にも貢献。
Spectrum-6 Switch次世代イーサネットスイッチ。

 今までは過去の会話履歴や長い文書などの「コンテキスト」を保持するためのKVキャッシュの管理が大きな課題となっていてそれがHBMに残り、新たな推論時の圧迫要因になっていたわけですが…これを計算に集中さえるための仕組みというのを具体的に提案してきたこととなります。GPUメモリから溢れたコンテキストデータを高速にネットワーク経由で保存・取得する「Context-Aware Networking」を担い、GPUのメモリを節約しつつ、より長い文脈を理解するAIアプリケーションを遅延なく実行できるようになります。また通常はホストCPUで実施していたインフラ処理の「オフロード」によるGPU/CPU、OSの処理やデータの暗号化、ストレージの管理などを肩代わりすることによってホストCPU(Vera CPU)やGPU(Rubin GPU)のリソースを、純粋に「AIの計算」だけに集中させることができるため、システム全体の電力効率とパフォーマンスが最大化されるというわけです。推論コスト1/10の裏側にはこのBulueField-4活用による3つのポイント(KVキャッシュ高速化、コンテキストスイッチ高速化、モデル再計算の抑制)がありそう。詳しくは↓

1. KVキャッシュの階層化(HBMの節約)

LLMの推論では、すべてのKVキャッシュを非常に高価なGPUメモリ(HBM4)に置く必要がありましたがメモリが足りなくなると、新しいリクエストを受け付けられず、効率が悪化。この対策でBulueField-4管理のICMS(Inference Context Memory Storage=SSD層)を用いて 直近で使うデータだけをHBMに置き、少し前のデータや長い文脈はへ高速に退避させます。これにより同じ数のGPUで、より多くのリクエストを同時に処理できるようになり、1リクエストあたりのハードウェアコストが激減します。

2. コンテキスト・スイッチの高速化

マルチユーザー環境では、ユーザーAの処理が終わった後、ユーザーBのデータをメモリにロードし直す「コンテキスト・スイッチ」が発生しますがこのデータの入れ替えに時間がかかり、GPUがアイドリングしてしまうというロスがありました。この対策でBlueField-4が1.6Tb/sという超高速帯域を使って、バックグラウンドでSSDから次のデータを「先読み」して準備することでGPUを遊ばせない構成になります。

3. モデルの再計算の削減

長いプロンプト(数千、数万トークン)を扱う場合、メモリ不足で過去のデータを消してしまうと、再度同じ計算をやり直す「再計算」コストが発生していましたがICMS導入で大容量のSSD層に全コンテキストを保存しておけるため、過去のデータを計算し直す必要がなくなります。

NVIDIA BlueField-4 が次世代 AI 向けの新たな AI ネイティブ ストレージ インフラを推進

Please follow and like us:

仕事は半導体デバイス開発。 趣味としているEnduranceスポーツと 日常の出来事を綴ります。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です