大規模ジョブ

よみ:だいきぼじょぶ

多数のGPU・CPUノードを長時間占有して実行する学習・解析処理。途中停止すると再実行コストが大きく、電源BCPの優先保護対象となる。

大規模ジョブと電源リスク

数百GPU・数十時間〜数日規模で走る大規模ジョブは、一度止まると再実行コストが極めて大きいことが特徴です。 電源トラブルによる停止は、単なるサーバ再起動にとどまらず、 学習済みモデルや中間成果物の破損、納期遅延・クラウド費用の膨張など、事業インパクトが大きくなります。

そのため、大規模ジョブを前提としたインフラでは、 DC-UPS やラック単位の冗長給電に加え、 偶発的な外乱への耐性や、 クリーン電源設計が重要になります。

関連する考え方・用語

この用語が出てくる記事

この用語が紐づく記事はまだ登録されていません。