Linuxのローカルネットワークでコンピューティングクラスタを設定する方法

Question

ここで詳しく説明するには広すぎるトピックですが、簡単な概要を見るには次のものが必要です。

一種の共有ストレージ（例：ネットワークファイルシステム）すべてのコンピュータがスクリプトとデータにアクセスできるようにします。
タスクスケジューラとリソース/ワークロードマネージャ（例：泥
mpi4pyPythonプロセスが互いに通信する必要がある場合（完全に別々のプロセスである場合は通信しない）、メッセージングライブラリの種類が必要になる場合があります（たとえば）。
ただし、権限の問題を回避するには、すべてのユーザーでタスクを実行してください。〜しなければならないすべてのシステムで同じUIDとGIDを持っています。

マシンの1つをヘッドノードまたはコントロールノードとして設定します。これはおそらくストレージサーバーでなければなりません。 a) 最も少なく使用され、b) 最も多くの記憶領域 (またはより多くの記憶領域のためのドライブベイ) を持つコンピュータは LAN 上のコンピュータです。このシステムでバッチジョブを送信する必要があります。

ところで、制御ノードはコンピューティングノードとしても機能し得る。

他の2つのマシンは「コンピューティングノード」であり、ストレージサーバー上のクライアントである必要があります（たとえば、NFSを使用している場合は、NFSサーバーからエクスポートされたNFSディレクトリをマウントする必要があります）。

これまでは望ましくないかもしれませんが、専用クラスタにはストレージノード（nfsまたはセファロスポリンまたはその他）、一部の集中型認証サーバー（素晴らしいまたはLDAPまたはその他）、ヘッドノード、およびコンピューティングノードのすべてのユーザーがファイルサーバーからホームディレクトリをマウントします。

しかし、「実際の」クラスターがどのように設計され構築されているか（または少なくとも概要を取得する方法）を見ることは価値があります。そこから3ノードクラスタに縮小するためのいくつかの良いアイデアを得ることができるからです。

Answer 1

ここで詳しく説明するには広すぎるトピックですが、簡単な概要を見るには次のものが必要です。

一種の共有ストレージ（例：ネットワークファイルシステム）すべてのコンピュータがスクリプトとデータにアクセスできるようにします。
タスクスケジューラとリソース/ワークロードマネージャ（例：泥
mpi4pyPythonプロセスが互いに通信する必要がある場合（完全に別々のプロセスである場合は通信しない）、メッセージングライブラリの種類が必要になる場合があります（たとえば）。
ただし、権限の問題を回避するには、すべてのユーザーでタスクを実行してください。〜しなければならないすべてのシステムで同じUIDとGIDを持っています。