GPUクラスタの監視

GPUクラスタの監視

Ubuntu 14.04 x64で実行されるサーバーは10台あります。各サーバーにはいくつかのNvidia GPUがあります。すべてのサーバーのGPU使用率を一目で確認できる監視プログラムを探しています。

ベストアンサー1

あなたはそれを使用することができます神経節監視ソフトウェア(無料、オープンソース)数量ありますユーザー貢献 Gmond Python DSO指標モジュール、GPU Nvidiaモジュールを含む(/ganglia/gmond_python_modules/gpu/nvidia/)。

そのアーキテクチャは一般的なクラスタ監視ソフトウェアです。

ここに画像の説明を入力してください。

イメージソース)

明確な文書が不足しているGPU Nvidiaモジュールを除いて、インストールは簡単です(約30分、急いでいません)。 (私はまだ閉じ込められた)


Gangliaをインストールするには:サーバーから:

sudo apt-get install -y ganglia-monitor rrdtool gmetad ganglia-webfrontend

YesApacheについて質問するたびに選択してください。

ここに画像の説明を入力してください。

最初、Gangliaサーバーを構成します。つまりgmetad

sudo cp /etc/ganglia-webfrontend/apache.conf /etc/apache2/sites-enabled/ganglia.conf

sudo nano /etc/ganglia/gmetad.conf

gmetad.conf次のように変更します。

変える:

data_source "my cluster" localhost

Pass (192.168.10.22サーバーの IP で推定)

data_source "my cluster" 50 192.168.10.22:8649

これは、Gangliaがポート8649(Gangliaのデフォルトポート)をリッスンする必要があることを意味します。監視するコンピュータで実行するGangliaクライアントがIPとポートにアクセスできることを確認する必要があります。

これでGangliaサーバーを起動できます。

sudo /etc/init.d/gmetad restart
sudo /etc/init.d/apache2 restart

Webインターフェイスにアクセスできます。http://192.168.10.22/ganglia/192.168.10.22サーバーのIPはどこにありますか?)

第二gmond、同じマシンまたは別のマシン(つまり)でGangliaクライアントを設定します。

sudo apt-get install -y ganglia-monitor

sudo nano /etc/ganglia/gmond.conf

gmond.confGangliaクライアント(つまり)がgmondサーバーを指すように、次のように変更します。

変える:

cluster {
name = "unspecified"
owner = "unspecified"
latlong = "unspecified"
url = "unspecified"
}

到着

cluster {
name = "my cluster"
owner = "unspecified"
latlong = "unspecified"
url = "unspecified"
}

変える

udp_send_channel {
mcast_join = 239.2.11.71
port = 8649
ttl = 1
}

渡す

udp_send_channel {
# mcast_join = 239.2.11.71
host = 192.168.10.22
port = 8649
ttl = 1
}

変える:

udp_recv_channel {
mcast_join = 239.2.11.71
port = 8649
bind = 239.2.11.71
}

到着

udp_recv_channel {
# mcast_join = 239.2.11.71
port = 8649
# bind = 239.2.11.71
}

これでGangliaクライアントを起動できます。

sudo /etc/init.d/ganglia-monitor restart

これは、30秒以内にサーバーのGanglia Webインターフェースに表示される必要があります(例:http://192.168.10.22/ganglia/)。

gmond.conf ファイルはすべてのクライアントに対して同じであるため、数秒で神経節監視を新しいコンピュータに追加できます。

sudo apt-get install -y ganglia-monitor
wget http://somewebsite/gmond.conf # this gmond.conf is configured so that it points to the right ganglia server, as described above
sudo cp -f gmond.conf /etc/ganglia/gmond.conf
sudo /etc/init.d/ganglia-monitor restart

私は次のガイドを使用しました。


gmond監視したいすべてのサーバーで起動または再起動するBashスクリプト:

deploy.sh:

#!/usr/bin/env bash

# Some useful resources:
# while read ip user pass; do : http://unix.stackexchange.com/questions/92664/how-to-deploy-programs-on-multiple-machines
# -o StrictHostKeyChecking=no: http://askubuntu.com/questions/180860/regarding-host-key-verification-failed
# -T: http://stackoverflow.com/questions/21659637/how-to-fix-sudo-no-tty-present-and-no-askpass-program-specified-error
# echo $pass |: http://stackoverflow.com/questions/11955298/use-sudo-with-password-as-parameter
# http://stackoverflow.com/questions/36805184/why-is-this-while-loop-not-looping


while read ip user pass <&3; do 
  echo $ip
  sshpass -p "$pass" ssh $user@$ip  -o StrictHostKeyChecking=no -T "
  echo $pass | sudo -S sudo /etc/init.d/ganglia-monitor restart
  "
  echo 'done'
done 3<servers.txt

servers.txt:

53.12.45.74 my_username my_password
54.12.45.74 my_username my_password
57.12.45.74 my_username my_password
‌‌ 

Webインターフェースホームページのスクリーンショット:

ここに画像の説明を入力してください。

ここに画像の説明を入力してください。

https://www.safaribooksonline.com/library/view/monitoring-with-ganglia/9781449330637/ch04.htmlGanglia Webインターフェイスの良い概要を提供します。

ここに画像の説明を入力してください。

おすすめ記事