トレーニングジョブ

よみ:とれーにんぐじょぶ

機械学習モデルの学習処理1本分を指す。数十時間?数百時間に及ぶこともあり、途中の電源断は計算資源と時間の大きなロスとなる。

トレーニングジョブは「やり直しコスト」が大きい

トレーニングジョブは、元データを何度もGPU上で反復計算する処理で、 数時間〜数日かかることも珍しくありません。 この途中で瞬停やネットワーク断が起きると、 ジョブがエラー終了し、再投入〜再計算のやり直しが必要になります。

そのため、学習基盤の電源BCPでは、 DC-UPSInfiniBandファブリック・ ストレージを含めた「ジョブが走る経路」全体の安定化が重要になります。

関連する考え方・用語

この用語が出てくる記事