Ubuntu 14.04 x64で実行されるサーバーは10台あります。各サーバーにはいくつかのNvidia GPUがあります。すべてのサーバーのGPU使用率を一目で確認できる監視プログラムを探しています。
ベストアンサー1
あなたはそれを使用することができます神経節監視ソフトウェア(無料、オープンソース)数量ありますユーザー貢献 Gmond Python DSO指標モジュール、GPU Nvidiaモジュールを含む(/ganglia/gmond_python_modules/gpu/nvidia/
)。
そのアーキテクチャは一般的なクラスタ監視ソフトウェアです。
(イメージソース)
明確な文書が不足しているGPU Nvidiaモジュールを除いて、インストールは簡単です(約30分、急いでいません)。 (私はまだ閉じ込められた)
Gangliaをインストールするには:サーバーから:
sudo apt-get install -y ganglia-monitor rrdtool gmetad ganglia-webfrontend
Yes
Apacheについて質問するたびに選択してください。
最初、Gangliaサーバーを構成します。つまりgmetad
:
sudo cp /etc/ganglia-webfrontend/apache.conf /etc/apache2/sites-enabled/ganglia.conf
sudo nano /etc/ganglia/gmetad.conf
でgmetad.conf
次のように変更します。
変える:
data_source "my cluster" localhost
Pass (192.168.10.22
サーバーの IP で推定)
data_source "my cluster" 50 192.168.10.22:8649
これは、Gangliaがポート8649(Gangliaのデフォルトポート)をリッスンする必要があることを意味します。監視するコンピュータで実行するGangliaクライアントがIPとポートにアクセスできることを確認する必要があります。
これでGangliaサーバーを起動できます。
sudo /etc/init.d/gmetad restart
sudo /etc/init.d/apache2 restart
Webインターフェイスにアクセスできます。http://192.168.10.22/ganglia/(192.168.10.22
サーバーのIPはどこにありますか?)
第二gmond
、同じマシンまたは別のマシン(つまり)でGangliaクライアントを設定します。
sudo apt-get install -y ganglia-monitor
sudo nano /etc/ganglia/gmond.conf
gmond.conf
Gangliaクライアント(つまり)がgmond
サーバーを指すように、次のように変更します。
変える:
cluster {
name = "unspecified"
owner = "unspecified"
latlong = "unspecified"
url = "unspecified"
}
到着
cluster {
name = "my cluster"
owner = "unspecified"
latlong = "unspecified"
url = "unspecified"
}
変える
udp_send_channel {
mcast_join = 239.2.11.71
port = 8649
ttl = 1
}
渡す
udp_send_channel {
# mcast_join = 239.2.11.71
host = 192.168.10.22
port = 8649
ttl = 1
}
変える:
udp_recv_channel {
mcast_join = 239.2.11.71
port = 8649
bind = 239.2.11.71
}
到着
udp_recv_channel {
# mcast_join = 239.2.11.71
port = 8649
# bind = 239.2.11.71
}
これでGangliaクライアントを起動できます。
sudo /etc/init.d/ganglia-monitor restart
これは、30秒以内にサーバーのGanglia Webインターフェースに表示される必要があります(例:http://192.168.10.22/ganglia/)。
gmond.conf
ファイルはすべてのクライアントに対して同じであるため、数秒で神経節監視を新しいコンピュータに追加できます。
sudo apt-get install -y ganglia-monitor
wget http://somewebsite/gmond.conf # this gmond.conf is configured so that it points to the right ganglia server, as described above
sudo cp -f gmond.conf /etc/ganglia/gmond.conf
sudo /etc/init.d/ganglia-monitor restart
私は次のガイドを使用しました。
- http://www.ubuntugeek.com/install-ganglia-on-ubuntu-14-04-server-trusty-tahr.html
- https://www.digitalocean.com/community/tutorials/introduction-to-ganglia-on-ubuntu-14-04
gmond
監視したいすべてのサーバーで起動または再起動するBashスクリプト:
deploy.sh
:
#!/usr/bin/env bash
# Some useful resources:
# while read ip user pass; do : http://unix.stackexchange.com/questions/92664/how-to-deploy-programs-on-multiple-machines
# -o StrictHostKeyChecking=no: http://askubuntu.com/questions/180860/regarding-host-key-verification-failed
# -T: http://stackoverflow.com/questions/21659637/how-to-fix-sudo-no-tty-present-and-no-askpass-program-specified-error
# echo $pass |: http://stackoverflow.com/questions/11955298/use-sudo-with-password-as-parameter
# http://stackoverflow.com/questions/36805184/why-is-this-while-loop-not-looping
while read ip user pass <&3; do
echo $ip
sshpass -p "$pass" ssh $user@$ip -o StrictHostKeyChecking=no -T "
echo $pass | sudo -S sudo /etc/init.d/ganglia-monitor restart
"
echo 'done'
done 3<servers.txt
servers.txt
:
53.12.45.74 my_username my_password
54.12.45.74 my_username my_password
57.12.45.74 my_username my_password
Webインターフェースホームページのスクリーンショット:
https://www.safaribooksonline.com/library/view/monitoring-with-ganglia/9781449330637/ch04.htmlGanglia Webインターフェイスの良い概要を提供します。