Infinibandネットワーク構成
InfiniBandネットワークの構成には、さまざまなトポロジーや機器が関与します。トポロジーとしてはFat TreeやDragonflyが一般的に採用され、機器としてはホストチャネルアダプタ(HCA)、スイッチ、ケーブルなどが使用されます。これらを効率的に管理するために、サブネットマネージャ(Subnet Manager, SM)が重要な役割を果たします。
**サブネットマネージャ(Subnet Manager, SM)**は、InfiniBandネットワークにおける重要なコンポーネントであり、ネットワーク全体のトポロジーを管理・制御する役割を担っています。サブネットマネージャが正常に機能することで、InfiniBandネットワーク内のノードが相互に効率的に通信できるようになります。
サブネットマネージャの役割
- トポロジーの検出と構築
- サブネットマネージャは、InfiniBandネットワークに接続されたすべてのノードやスイッチを検出し、その物理的なトポロジーを構築します。
- 各デバイス(ノード、スイッチなど)のリンクを把握し、どのように接続されているかを理解します。
- LID(Local Identifier)の割り当て
- InfiniBandネットワーク内の各ノードに**LID(ローカル識別子)**という識別番号を割り当てます。LIDは、パケットの送信元および送信先のアドレスとして使用されます。
- LIDにより、ネットワーク内のノード同士が正確にデータを転送できます。
- ルーティングの設定
- 各ノード間のルーティングテーブルを作成し、データパケットの最適な経路を決定します。
- 最適なルーティングを選択することで、ネットワークの帯域幅を有効活用し、ボトルネックを最小限に抑えます。
- ネットワークの監視
- サブネットマネージャは、リンクの状態やネットワーク全体の正常性を監視します。
- 障害が発生した場合にはトポロジーを再構成し、サービスの継続を図ります。
サブネットマネージャの実装と動作環境
- 統合型サブネットマネージャ: 一部のInfiniBandスイッチやHCAには、サブネットマネージャが組み込まれています。これにより、シンプルでスモールスケールな構成に適したネットワーク管理が可能です。
- スタンドアロン型サブネットマネージャ: 大規模な環境では、専用のサーバーにサブネットマネージャ用のソフトウェアをインストールして使用します。これにより、複雑なネットワーク構成にも対応し、より詳細な制御が可能です。
主なサブネットマネージャソフトウェア
- OpenSM(オープンソース)
- OpenSMは、InfiniBandネットワークにおいて広く使用されているオープンソースのサブネットマネージャです。
- 無料で利用可能で、Linux上で動作します。小規模なInfiniBandネットワークの管理に適しています。
- Unified Fabric Manager(UFM)
- **NVIDIA(旧Mellanox)**が提供する商用サブネットマネージャです。
- UFMはネットワークの監視、最適化、パフォーマンス管理機能を提供し、大規模なHPCクラスターやデータセンターで利用されています。GUIベースの管理ツールにより、直感的に管理が可能です。
- PKey(Partition Key)による仮想化サポート
- サブネットマネージャは、ネットワークを仮想的に分割するために**PKey(パーティションキー)**の管理も行います。
- PKeyを使うことで、複数のユーザーやアプリケーションが同一のInfiniBandネットワークを使用しても、安全に分離された環境を提供できます。
冗長化とフェイルオーバー
InfiniBandネットワークの可用性を向上させるために、サブネットマネージャの冗長化が行われます。複数のSMをネットワークに配置することで、1つのSMが故障した場合でも他のSMが自動的に役割を引き継ぎ、ネットワークを維持します。これにより、サービスの中断を最小限に抑えます。
サブネットマネージャの起動と操作
サブネットマネージャはネットワークの初期化時に起動されます。起動時にネットワーク全体をスキャンし、トポロジー情報を収集して各デバイスにLIDを割り当て、ルーティングを設定します。これにより、各ノードが他のノードと正確に通信できるようになります。
CLI(コマンドラインインターフェース)やGUI(グラフィカルユーザーインターフェース)を通じて、サブネットマネージャの設定、トポロジー情報の確認、ネットワークの監視などが可能です。
まとめ
サブネットマネージャは、InfiniBandネットワークの正常な動作を維持するために不可欠な管理コンポーネントです。OpenSMのようなオープンソースツールから、NVIDIAのUFMのような高度な管理機能を持つ商用ツールまで、ネットワークの規模や要件に応じて適切なSMを選択することが可能です。