Challenges and Research Directions for Large Language Model Inference Hardware
Googleエンジニア(Xiaoyu Ma氏とDavid Patterson氏)の論文。大規模言語モデル=LLM(GoogleなのでGeminiベース)の性能がハードウエアとして何で律速されているか?を分析、そして打開するための方法について論じた内容です。「Mixture of Experts (MoE)」、「推論(Reasoning)モデル」、「マルチモーダル」、「長いコンテキストWindow」といった最新のトレンドが、メモリや通信のリソース需要をさらに増大させているということ。やはりいつも出てくるのがメモリの壁とチップ間の遅延課題。前者に関しては演算能力(FLOPS)の向上に比べ、メモリ帯域幅の向上が遅れている、さらに高性能なHBM(高帯域幅メモリ)のコストは上昇していることが挙げられています。具体的には2012年から2022年の10年間で、演算能力は 80倍 に向上したのに対し、メモリ帯域幅は 17倍 の成長にとどまっており、2023年から2025年にかけて、HBM(高帯域幅メモリ)の容量単価($/GB)と帯域幅単価($/GBps)は共に 1.35倍 に上昇しているということでメモリ側が律速する世界が現実のものとなりつつあります。後者に関しては特にMixture of Experts (MoE) によるリソース増大での課題となっていてエキスパート数:が従来の単一の密なフィードフォワードブロックではなく、数十から数百を使用するようになってきた( DeepSeek-v3 では 256 のエキスパートが搭載されており、それらが選択的に呼び出される)ことでトレーニングコストを下げてモデルサイズ増やせるのですが逆にエキスパート間での通信が課題になるということです。4つの課題に対するインパクトまとめは以下のような感じ。
| トレンド | メモリ容量への影響 | メモリ帯域への影響 | 通信遅延への影響 |
| MoE | 甚大(主要な壁) | 大(主要な壁) | あり |
| Reasoning | 大(主要な壁) | あり | 不明(システム規模に依存) |
| Long-context | 大(主要な壁) | あり | 不明(システム規模に依存) |
そしてこ著者らは、これらの課題を解決するために以下の4つの技術領域を提唱しています。
- 高帯域幅フラッシュ (HBF): HBMのような帯域幅を持ちつつ、フラッシュメモリの容量(HBMの10倍)をスタックして提供する技術 。
- メモリ近傍演算 (PNM): ロジックとメモリを別々のダイに配置しつつ近づけることで、PIM(メモリ内演算)よりもソフトウェアでの扱いやすさを維持しながら高い効率を実現する手法 。
- 3Dメモリ・ロジック積層: 垂直方向の接続(TSV)を利用し、低消費電力で広帯域なインターフェースを実現する 。
- 低遅延インターコネクト: 推論の小規模で頻繁なメッセージ送信に最適化された、低ホップ数のネットワークトポロジやネットワーク内処理の再考 。
HBFがLLMの開発現場でも注目浴びているというのはフラッシュメモリ開発に携わる者としてはうれしい事項ではありますがDRAMと比較してしまうと①書き込み寿命の短さ (Limited write endurance)②読み出しの遅延と単位 (High latency & Page-based reads)が大きな課題。HBMをHBFで置き換えるというのは現実的でなくHBMを使いながらも適材適所でHBFを活用するというのが現時点ではやれることなのだと指摘されています。具体的には…
データの選別(書き込み対策):
- 推論時のモデルの重み(Weights)のように、一度ロードすれば更新頻度が極めて低いデータの保持に使用 。
- KVキャッシュのように生成トークンごとに更新されるデータには不向きですが、Webコーパスやコードベース、論文データベースといった「変化の遅いコンテキスト(slow-changing context)」の保持には有効 。
ハイブリッド構成:
- HBFはHBMの完全な代替にはならないため、HBFに適さないデータを保持するために、システム内に通常のDRAMを併用し役割分担もしくはバッファとするというもの 。
ということで併用するというのが現時点の基本的な考え方。無尽蔵にHBMを増やすわけにいかないとするとメモリ容量、帯域がボトルネックになるのは目に見えている状況で今後、AIの未来はGPUだけでなくメモリの進化にかかっているというのは間違いなさそうです。



