米NVIDIA(エヌビディア)が開いた2025年の年次開発者会議「GTC」の大きなテーマは、AI(人工知能)の推論だった。AIのフェーズは、エヌビディアが以前から得意としていた学習から推論へと移行している。米国時間2025年3月18日の基調講演で、ジェンスン・ファンCEO(最高経営責任者)は推論にも同社の技術が必須だと強調。推論を最適化するソフトウエア「Dynamo」を発表した。

エヌビディアのファンCEOがDynamoを発表した
エヌビディアのファンCEOがDynamoを発表した
(写真:日経クロステック)
[画像のクリックで拡大表示]

 Dynamoはオープンソースとして提供するソフトウエアで、数千基ものGPU(画像処理半導体)が動くAIの推論処理をオーケストレーションして高速化することで、生成するトークンの量を最大化する。例えばエヌビディアの最先端GPUアーキテクチャー「Blackwell」を最適化すると、中国のAI開発企業DeepSeek(ディープシーク)のAIモデル「R1」の処理を30倍高速化できるという。

 PytorchやNVIDIA TensorRT-LLM、vLLM、SGLangなどのフレームワークをサポートしており、開発者は米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)や米Microsoft(マイクロソフト)、米Google(グーグル)などの主要クラウドプロバイダー経由でも利用できる。

 Dynamoは推論の処理を分散する「細分化サービング」を採用している。推論は、ユーザーのクエリーを処理し、情報をモデルに埋め込むプロセスである「プリフィル(Prefill)」と、その情報を基に新しいトークンを生成する「デコード(Decode)」と呼ぶプロセスから成る。従来の手法では、プリフィルとデコードを1つのGPUで処理していた。細分化サービングでは、これら2つのフェーズを独立させ、異なるGPUに割り当てる。

 GTCに合わせてメディアの合同取材に応じたエヌビディアのイアン・バック副社長は「この2つを分割することで、入力トークンの計算を劇的に圧縮できる」と解説した。バック副社長はソフトウエア開発環境「CUDA」を開発したことで知られる。

 細分化サービングの鍵となるのが「KVキャッシュ」のマネジメントだ。KVキャッシュとはトランスフォーマーモデルにおいて推論を効率化する技術で、過去の「Key(トークン同士の関連性を測る目印)」と「Value(バリュー、注目したトークンから得る情報)」のセットを保存することを指す。

 KeyとValueを計算するには多くのリソースが必要となる。新しいトークンに対して、既に保存してあるKVキャッシュを利用することで計算量を減らせる。再計算が不要となるため、特に長い入力トークンに対する処理やエージェント型AIなどの同種のリクエストが頻繁に実行される処理において、推論時間の大幅な短縮が期待できる。

 バック副社長は「KVキャッシュは(推論における)ワーキングメモリーのようなものだ」と説明する。すべてのトークンを記憶する必要はなく、一時的に鍵となる情報だけを保存しておけば、効率的な推論が実現できる。

 Dynamoは「KVキャッシュマネージャ」と呼ぶ機能を持つ。GPUのメモリーには限りがあり、すべてのKVキャッシュを保存することはできない。KVキャッシュマネージャは古いキャッシュやアクセス頻度の低いキャッシュを見極めて、CPUのホストメモリーやローカルストレージなどにオフロードする。この機能によって、GPUメモリーにキャッシュを保存する場合と比較してコストが数分の1になるという。

 分散配置されたGPUそれぞれのKVキャッシュを追跡し、入力されるリクエストを効率的にルーティングする機能も備える。KVキャッシュをいつどこで再利用すべきかをマネジメントし、効率的な利用を実現する。

 ファンCEOは基調講演で、推論における計算量の増大について時間を割いて説明した。印象的だったのは、スライド中で大きく示した「トレードオフ(二律背反)」のグラフだった。

ファン氏が語ったトレードオフの解決策

 グラフの縦軸はAIサービス全体の1秒当たりのトークン数。トークン数はAIの思考の量や回答の量を示すので、サービス全体の計算量の大きさを表している。一方、横軸は1ユーザー当たり・1秒当たりのトークン数だ。どれだけ早く回答が戻ってくるかを示しており、この値が大きくなることは低遅延(低レイテンシー)であることを表す。

 サービスに与えられた計算量が一定ならば、全体の計算量が多くなればユーザーに回答する速度は遅くなる。つまり、量とスピードはトレードオフの関係にある。

エヌビディアのファンCEOが示したAIのトレードオフ
エヌビディアのファンCEOが示したAIのトレードオフ
(写真:日経クロステック)
[画像のクリックで拡大表示]

 2024年後半から登場したディープシークのAIモデル「R1」や米OpenAI(オープンAI)の「o1」などは「推論モデル」と呼ばれ、従来の大規模言語モデル(LLM)と比較して推論時に多くの計算処理をすることで知られる。タスクを分解してユーザーを助ける「AIエージェント」も、多くの推論処理が必要だ。つまり、1人当たりの計算量が多くなるので横軸の値も大きくなる。

 しかし1人当たりの計算量が多くなれば、同時にAIを利用できる人数は限られる。もし縦軸を大きくしたい(=ユーザーを増やしたい)なら、ユーザーの1秒当たりのトークン数を制限するしかない。ただし、その方法では遅延が大きくなってしまうので、ユーザーの満足度は下がってしまう。

 つまり、ディープシークなどが提供する推論モデルは便利だが、実際にサービスで使うとなると同時に使えるユーザー数を犠牲にするか、レイテンシーを大きくして使い勝手を犠牲にするか、どちらかになってしまう。

 エヌビディアが主張したいのはこうだ。トレードオフを超越し、量とスピードのどちらも優先したいなら、ハードウエアを増強すればいい──。

 ファンCEOは「(前世代GPUの)Hopperに比べて(現行世代GPUの)Blackwellは(トークン量が)25倍になる」と力説した。ハードウエアを増強することでグラフが右上のほうに移行すれば、AIサービスのユーザー数もユーザー体験も向上すると説明したわけだ。

2027年の新世代GPUは「Feynman」

 実際には、サービス内容を工夫することでトークン数を減らすといった改善も考えられることから、エヌビディアが言うような単純比較で片付けられる世界ではない。ただ、推論が得意なモデルを大量に利用する際に膨大な計算能力が必要になることは事実だろう。

 ファンCEOは基調講演で「全世界がこの1年、誤解していた。推論(が得意なAIモデル)の結果、現時点で必要な計算量は、昨年の今ごろに必要だと考えていた量の100倍をはるかに超えている」と説明した。

 エヌビディアはGTCで、Blackwellの後継に当たる「Blackwell Ultra」を2025年後半に投入すると発表。AIの処理性能はBlackwellの1.5倍に当たるという。さらに2026年には「Rubin」を、2027年には「Rubin Ultra」を投入することも発表。併せて、その先のGPUのコードネームが「Feynman」であることを明かした。

 AIの学習では覇権を握ったエヌビディア。市場は推論の勝者を見定めており、同社はその土俵でもソフトウエアとハードウエアの両面で覇権争いを優位に進めようとしている。