ニュース
- 劉 尭
2024年7月5日 11:42
Panmnesiaは6月25日(現地時間)、肥大化するAIモデルに対処するため、世界で初めて「2桁ナノ秒(ns)」のレイテンシを実現できるCXL対応のコントローラIP「CXL-Opt」を発表した。
LLM(大規模言語モデル)を代表とする大規模なディープラーニングにおいて、10億パラメータで16GB~24GBのビデオメモリを消費するのが当たり前となってきおり、100億パラメータモデルでは、現在のハイエンドGPUのビデオメモリ(一般的には80GBが上限)を優に超える。
メモリ容量の制限を打破するため、これまでNVIDIAおよびAMDでは共有仮想メモリ(UVM)という仕組みを用意し、ランタイムソフトウェアを介しCPUとGPUが共有するメモリの仮想アドレス空間にアクセスしていた。しかし、GPU側のメモリにないデータにアクセスが発生すると、キャッシュミスとページフォルトが発生。ホストランタイムがページフォルトを処理する際にかなりのレイテンシが生じ、性能のボトルネックとなっていた。
この問題に対処するため、PanmnesiaはPCI Expressの物理層を利用したCXL(Compute Express Link)を介して、汎用的なDRAMやNVMe SSDをエンドポイントとしてGPUメモリを拡張するソリューションを提唱した。
まず、主要なCXLサブプロトコルをサポートする基本的なハードウェアレイヤーを開発してコントローラに統合。また、メモリとSSDコントローラの機能をも組み合わせることでホスト管理デバイスメモリ(HDM)として認識できるようにした。
一方、GPUのキャッシュシステムにもEPとして認識される必要性に対処するため、複数のルートポートを備えたホストブリッジを特徴とするCXLルートコンプレックスを開発。片方はシステムバスに接続し、もう片方は複数のCXLルートポートに接続、各ルートポートの物理アドレスを管理するHDMデコーダを介して、先ほど開発したコントローラに接続するようにした。
今回開発したCXL-OptをカスタムASICで実装したGPUで評価したところ、世界で初めて2桁ns単位のラウンドトリップレイテンシを実現。これにより、従来のUVMと比較して実行時間が1.94倍速くなった。また、読み書きのレイテンシを隠蔽するためのソリューションを用いることで、実行時間をさらに1.66倍高速化できた。
加えて、GPUカーネル実行中のIPC(クロックあたりの命令実行数)を比較したところ、UVMと比較して3.22倍、MetaとSamsungが開発したCXL-Protoと比較して1.65倍の高速化を示したとしている。
0 コメント:
コメントを投稿