Slurmクラスタのコンピューティングノードの命名方式は何ですか?

Slurmクラスタのコンピューティングノードの命名方式は何ですか?

Debian 11、Slurm、およびさまざまなハードウェアに基づいて新しいコンピュータクラスタを構築する予定です。クラスタはPXEを使用してネットワークの場所から起動します。クラスタは時間の経過とともに拡張されると予想されるため、新しいノードをいくらでも簡単に追加できる柔軟性が必要です。

しかし、私はslurmの経験はあまりありません。構成ファイルでノードを構成できるという私の考えには、より良い(=より動的な)方法がありますか?さらに、ノードは「ディスクがない」ため、デフォルトのホスト名は必ずしも必要ではなく、DHCPからIPアドレスを取得するため、事前にクラスタを構成することはより困難です。これを管理する方法があるはずです。

この問題についてここあちこちとグーグルで検索してみましたが、2000年代初頭以降はあまり注目されていないテーマのようです。

ベストアンサー1

まず、クラスター内の各サーバーにホスト名とIPアドレスを割り当てるようにDHCPサーバーを構成します。これは、サーバーのMACアドレスを使用して簡単に実行できます。

いくつかのホスト名テンプレートオプションがあります。 Slurmは設定ファイルとコマンドで数値範囲をサポートしているため、などの名前を使用すると操作がnode001簡単node002になり、最大999個のノードを許可できます。sinfo -n node[001-010]ホスト名の数字部分の後に文字は続くことはできません。

サイトの命名規則が異なる場合は、別名を slurm 構成ファイルに入れることができます。

NodeName=node001 NodeHostName=org-slurm-001

おすすめ記事