トレーニングジョブ
よみ:とれーにんぐじょぶ
機械学習モデルの学習処理1本分を指す。数十時間?数百時間に及ぶこともあり、途中の電源断は計算資源と時間の大きなロスとなる。
トレーニングジョブは「やり直しコスト」が大きい
トレーニングジョブは、元データを何度もGPU上で反復計算する処理で、 数時間〜数日かかることも珍しくありません。 この途中で瞬停やネットワーク断が起きると、 ジョブがエラー終了し、再投入〜再計算のやり直しが必要になります。
そのため、学習基盤の電源BCPでは、 DC-UPS・ InfiniBandファブリック・ ストレージを含めた「ジョブが走る経路」全体の安定化が重要になります。