GPUクラスタは、数ミリ秒の電圧ドロップでさえ
大規模ジョブを失います。
本機は、InfiniBand スイッチ/
GPUノードのためだけに設計された
0ms 無瞬断 DC-UPS。
DC52Vバス・5kWモジュールを N 倍スケールし、
AGMバッテリーにより 5〜30分の安定バックアップを実現します。
※ 本ページは先行検証用の技術LPです。量産仕様はお打合せにて定義します。
[AC PSU]──┬──▶ DC/DC Conv ─▶ ORing MOSFET ─┐
│ │
[DC Bus]───┴───────────────────────────────────┤──▶ DC52V 共通バス ─▶ IB Switch / GPU Node
│
[AGM Pack #1] ─▶ BMU ─▶ ORing MOSFET ──────────┤
│
[AGM Pack #2] ─▶ BMU ─▶ ORing MOSFET ──────────┘
監視・制御:×2(HA構成)
- SNMPv2c/v3, Syslog, REST Hook
- バス電圧・電流・SoC・温度・アラーム一括収集
図は概念構成です。実際のインターフェース数・BMU構成・保護デバイスは ご利用の IB スイッチ/ラック設計に合わせて最適化します。
既にデジタル防災無線局向けオフグリッド電源や商用運転中のエンジンUPS/船舶用無瞬停電源で培ったアーキテクチャをベースに、 負荷側を InfiniBand/GPU ファブリックに最適化した構成です。
下記は v1.0 想定仕様です。実際の案件では、 接続対象の IB スイッチ/GPU ラック構成・バックアップ時間要件に応じて 個別にチューニングします。
| モデル名 | AI-UPS v1.0(AIUPS-IB-5K ベース構成) |
|---|---|
| 用途 | InfiniBand スイッチ/GPU ノード向け DC52V 無瞬断電源(ノード/ラック/Pod 単位) |
| 電気仕様(1 モジュールあたり) | |
| 定格出力 |
5kW @ DC52V(約 96A) 出力電圧レンジ:50〜54V(IB スイッチ仕様に応じて調整) |
| スケーラビリティ |
1〜4 モジュール:ラック/IB スイッチ単位(5〜20kW) 5〜20 モジュール:Pod/ゾーン単位(25〜100kW クラス) |
| 入力系 |
上位 AC-DC PSU からの DC バス入力を想定(例:200〜240Vac 50/60Hz → DC52V) ※ AC 側仕様はデータセンター側インフラに合わせて設計 |
| 無瞬断機構 |
DC52V 共通バス + ORing MOSFET による 0ms 切替 PSU 系統喪失時も、AGM バッテリー系へ瞬断無しでフェイルオーバー |
| バッテリー/バックアップ時間(例) | |
| バッテリー種別 |
AGM バッテリー(密閉型鉛蓄電池)4 直列構成(48〜52V クラス) 実績ベースでの容量・メーカー選定(船舶・エンジン UPS での実績品) |
| バックアップ時間目安 |
例:負荷 5kW 時 ・5分バックアップ:おおよそ 8〜10Ah クラス(高負荷条件) ・15分バックアップ:おおよそ 20〜25Ah クラス ・30分バックアップ:おおよそ 40〜50Ah クラス ※ 実際は温度・放電レート・寿命設計を加味して個別計算 |
| BMU/保護機能 |
BMU による電圧監視・電流制限・温度監視・過放電保護 バッテリー系統ごとにヒューズ/ブレーカを配置 |
| 監視・制御・インターフェース | |
| コントローラ |
2 台(HA 構成) Active/Standby または Dual-Active 構成に対応 |
| ネットワーク |
Ethernet 1000BASE-T ×2(コントローラごとに独立) 管理ネットワーク/監視ネットワークへの分離も可能 |
| プロトコル |
SNMPv2c / v3(RFC1628 ベース UPS-MIB + ベンダ MIB) Syslog 出力、REST Webhook(オプション)、メール通知(オプション) |
| 監視項目(例) | DC バス電圧・電流、各 AGM Pack 電圧・電流・SoC、温度、ORing 状態、アラーム状態、 ログイベント(瞬停検知・系統切替・バッテリテスト結果 など) |
| メカニカル/環境条件(目安) | |
| 実装形態 | 19インチラックマウント(4U〜6U 目安)または キャビネット実装(案件別設計) |
| 使用温度範囲 |
0〜40℃(AGM バッテリー寿命を考慮した推奨範囲) ※ データセンター標準温度条件に合わせて評価 |
| その他 |
冷却方式:強制空冷(ファン冗長構成を想定) 適用規格・認証:安全規格/EMC/船級などは案件ごとに協議 |
※ 上記はドラフト仕様です。最終仕様は個別仕様書(InfiniBand_UPS_v1_spec_AGM 等)にて定義します。
AI クラスタ全体に一台の巨大UPSをぶら下げるのではなく、 「どこを絶対に落とさないか」 という観点で分割配置することを推奨しています。
Q3401-RD のような 400G/800G IB スイッチの コア層 に AI-UPS を直結。 Pod 全体を守る「最後の砦」として、ここだけは 0ms 無瞬断を保証します。
8GPU ノード×数台が収まるラック単位で 5kW〜20kW 構成を実装。 再起動に時間のかかるノード群をまとめて守りつつ、障害ドメインを限定します。
ジョブスケジューラ・メタデータDB・監視系など、 「落ちると復旧手順が複雑なサーバ群」に小規模 AI-UPS を配置。 管理プレーンを優先的に保護します。
[上位 IB Core Switch] ── AI-UPS (5〜10kW) ── UPS 保護ドメイン A
│
├─ [IB Leaf Switch] ── AI-UPS (5〜20kW) ── UPS 保護ドメイン B(ラック単位)
│
└─ [GPU Nodes / Storage] ── ラック内 AI-UPS(任意)
[Control / Logging / Scheduler] ── 小容量 AI-UPS ── UPS 保護ドメイン C
※ 停電時:
- ドメイン A,B,C は 5〜30分稼働を維持
- バックアップ時間内にジョブの中断処理・データフラッシュ・優雅なシャットダウンが可能
GPU クラスタ用電源において最も重要なのは、エネルギー密度よりも
「確実に動き続けること」です。
当社の AI-UPS は、既に船舶・エンジン UPS・産業用途で実績のある
AGM(Absorbent Glass Mat)バッテリーを採用します。
これは AI データセンターにとって、以下の理由から合理的な選択です。
| 比較項目 | AGMバッテリー(AI-UPS) | リチウムイオン UPS |
|---|---|---|
| 安全性 | 発火・熱暴走リスクが低く、構造が単純で状態把握が容易 | 高エネルギー密度ゆえに熱設計・保護設計が複雑 |
| 運用思想 | 止めずに動かし続けることを前提とした設計が可能 | 異常時は保護回路が動作し、電源を遮断して停止する設計が中心 |
| バックアップ時間 | 5〜30分クラスの「優雅な停止」に最適 | 長時間バックアップに有利だが AI 用途では過剰な場合も多い |
| 実績 | 船舶・エンジンUPS・産業用途で長期運用実績 | データセンター用リチウムUPSとして普及中だが、火災リスクをどう許容するか設計判断が必要 |
慧通信技術工業株式会社は、自律・分散・非同期オフグリッド電源として船舶・発電設備・産業機械向けの
無瞬停 DC 電源・エンジン UPS を長年提供してきました。
24時間365日、止めることが許されないシステムを支えてきた経験と、
自社開発の SNMP 監視基盤/MIB 群を組み合わせることで、
AI クラスタに最適化された新しい DC-UPS として再構成しています。
※ 本ページの AI-UPS はコンセプト提案〜PoC フェーズの製品です。 実機仕様・認証・納期などは個別案件ごとに協議の上、定義いたします。
本 AI-UPS は、「お客様の AI クラスタに最適化された専用電源」を共に設計するためのプラットフォームです。
具体的な容量設計・AGM バッテリ選定・MIB 定義の整理まで、
技術的なディスカッションベースでご相談ください。
「AI-UPSについて」と明記いただくとスムーズです。