GPU
よみ:じーぴーゆー
大量の並列計算を高速に処理する演算装置。ディープラーニングの学習・推論やHPC用途で必須となる計算リソース。
GPUと電源インフラの関係
GPUは数百〜数万スレッド規模の並列計算を同時に実行するため、 瞬間的な電力要求と発熱が大きいことが特徴です。AI学習・推論クラスタでは 数十〜数百台のGPUノードが同時に動作するため、 電源系の設計が不十分だと、電源品質の劣化や 電源瞬断がシステム全体の停止につながります。
特にトレーニングジョブ中の瞬停や電源ノイズは、 ジョブ全体のやり直しや一次データ破損のリスクになるため、 GPUクラスタの電源にはDC-UPS・二重化・ORing・SNMP監視などを組み合わせた 電源BCP設計が求められます。
GPUを使うシステムで注意すべきポイント
- GPUノードをまとめたGPUクラスタの起動・停止時に大きな電流変動が発生する
- ジョブが長時間(数時間〜数日)継続するため、一瞬の電源トラブルが大規模損失になりうる
- InfiniBandファブリックなどのネットワーク機器も含めた系統停止リスクを考える必要がある