GPU

よみ:じーぴーゆー

大量の並列計算を高速に処理する演算装置。ディープラーニングの学習・推論やHPC用途で必須となる計算リソース。

GPUと電源インフラの関係

GPUは数百〜数万スレッド規模の並列計算を同時に実行するため、 瞬間的な電力要求と発熱が大きいことが特徴です。AI学習・推論クラスタでは 数十〜数百台のGPUノードが同時に動作するため、 電源系の設計が不十分だと、電源品質の劣化や 電源瞬断がシステム全体の停止につながります。

特にトレーニングジョブ中の瞬停や電源ノイズは、 ジョブ全体のやり直しや一次データ破損のリスクになるため、 GPUクラスタの電源にはDC-UPS・二重化・ORing・SNMP監視などを組み合わせた 電源BCP設計が求められます。

GPUを使うシステムで注意すべきポイント

関連する考え方・用語

この用語が出てくる記事